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ПРЕДИСЛОВИЕ 


Данный учебный курс возник на основе лекций, читавшихся в течение послед- 
них 10 лет на базовой кафедре «Управляющие и информационные системы» при 
ГосНИИАС (ФГУП «Государственный научно-исследовательский институт авиацион- 
ных систем») факультета управления и прикладной математики Московского физико- 
технического института (государственного университета) (заведующий кафедрой — 
академик РАН Е. А. Федосов). За это время авторами были неоднократно прочитаны 
такие курсы, как «Обработка и анализ изображений» н «Машинное зрение». Кроме 
того, был разработан и более углубленный курс «Математические методы анали- 
за изображений», рассчнтанный на аспирантов и преподавателей. Соответствующие 
учебные материалы периодически распространялись в электронной форме. Однако co- 
временное машинное зрение — чрезвычайно динамично развивающаяся прикладная 
дисциплина, поэтому каждый год наши учебные материалы существенно обновля- 
лись и пополнялись. В данном издании представлена нанболее актуальная и полная 
их версия по состоянию на лето 2010 года. 

Книга адресована студентам, аспирантам и преподавателям технических вузов в 
качестве учебного пособия по специальности 230102 «Автоматизированные системы 
обработки информации и управления». Материал, изложенный в книге, позволяет 
изучать все три перечисленных курса. Базовый курс «Обработка и анализ изобра- 
жений» посвящен в основном алгоритмическим вопросам. Базовый курс «Машинное 
зрение» посвящен практическим приложениям и специализированным технологиям. 
Углубленный курс «Математические методы анализа изображений» посвящен матема: 
тнческим аспектам рассматриваемой проблемной области, прежде всего — зрению на 
основе моделей и морфологическому анализу изображений. Освоение базовых курсов 
не потребует от студентов каких-либо дополнительных знаиий, выходящих за пределы 
школьной программы. Углубленный курс предполагает знакомство с математическими 
понятиями на уровне базовых ннститутских курсов алгебры, математнческого анали: 
за н теории вероятности. Заголовки разделов, относящихся к углубленному курсу, 
помечены звездочкой. 

Простейший взгляд на структуру этой книги заключается в том, что в ней простс 
последовательно раскрываются все ключевые слова, входящие в название книги к 
характернзующие ee предиет и содержание: «Обработка и анализ изображений E 
задачах машиниого зрения (курс лекций и практических занятий)». 

Соответственно, главы книги (в порядке следования) посвящены: ИЗОБРАЖЕ: 
НИЯМ, процедурам их ОБРАБОТКИ, задачам их АНАЛИЗА, включая выделение v 
описание характерных элементов, сравнение и привязку изображений, обнаружение 
и идентификацию объектов, методы математического описания формы изображений 
и, наконец, современным технологиям и приложениям МАШИННОГО ЗРЕНИЯ. Пр; 
этом сначала в каждом разделе излагаются теоретические положения, которые сле. 
дует рассматривать как лекционный материал, а затем приводится описание соот: 
ветствующих практических занятий. Целью подобного «параллельного» изложени; 
является создание общего теоретического фундамента в области анализа и обработ. 
ки изображений, знакомство с базовыми математическнии методами и алгоритмиче: 
скими процедурами, и в то же время выработка навыка самостоятельной работы ‹ 
цифровымн изображениями в задачах машинного зрения. 

Практические занятия в рамках данного учебного курса предлагается выполнят! 
с использованием разработанного в ГосНИИАС специализированного программног‹ 
пакета Рой Image Framework. Этот пакет позволяет решать учебные и исследова: 
тельские задачн в режиме визуального программирования схем обработкн изображе 
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ний, что экономит время и усилия как студентов, так н преподавателей. СО-диск с 
ннсталляцией системы Р1зоЙ прилагается к книге, так что любой читатель сможет 
при желании самостоятельно выполнять все описанные в соответствующих разделах 
упражнения и примеры. Это позволяет также рекомендовать данный учебный курс 
для использования в программах дистанционного обучения. 

В создании системы Pisoft, а также ряда исследовательских программ н завер- 
шенных практических приложений, опнсанных в книге, помимо авторов принимал 
участие большой коллектив сотрудников ФГУП «ГосНИИ Авиационных систем» и 
ЗАО «Институт информационных технологий». Некоторые нз описанных в книге при- 
кладных систем были созданы спецналистами других организаций либо в кооперации 
& НИМИ — это в каждом случае конкретно указано. 

Многие параграфы книги были подготовлены на основе материалов и иллюстра- 
ций, любезно предоставленных нашими коллегами: Ю. П. Пытьевым и А. И. Чуличко- 
вым — по морфологнческому сравнению изображений, Л. М. Местецким, А. А. Маса- 
ловичем, И. А. Рейером н Л. Г. Домахиной — по непрерывной морфологни, IO. Б. Bno- 
хиновым — по сопоставленню изображений на основе характерных черт, С. Л. Карате- 
евым — по линейной фильтрацин в частотной области, Ю.С. Тюфлиным — по дальней 
фотограмметрни и дистанционному зондированию, С. В. Скрябиным — по полуавтома- 
тическому выделению протяженных объектов, О. В. Выголовым — по системам улуч- 
шенного видения для самолетов гражданской авиации, С. И. Ортюковым — по штри- 
ховым кодам, В. А. Князем — по короткобазисной фотограмметрии и бесконтактным 
измерениям, А.Б. Беляковым — по автодорожному сканеру, К. Н. Стрельниковым — 
ло блочным методам анализа движения, Ю. В. Морзеевым — по биометрии и обнару- 
жению силуэта человека, В. Ю. Гудковым — по дактилоскопни, О. В. Ушмаевым — по 
мультибкометрин. 

Эта книга не могла бы появиться без постоянной поддержки H внимания за- 
ведующего кафедрой «Управляющие н информационные системы» академнка РАН 
Е. А. Федосова. Чрезвычайно полезным было также участне в обсуждении замыс- 
ла н ряда тем этой книги члена-корреспондента РАН Г. Г. Себрякова, профессоров 
В. В. Инсарова к В.Н. Сошннкова. Значительную работу по сборке и форматнрованкю 
текста книги выполнила А. В. Белозерова. 

Авторы выражают глубокую признательность н благодарность всем, кто помогал 
им в работе над этой книгой. 


ГЛАВА 1 


ВВЕДЕНИЕ 


1.1. Обработка и анализ изображений в задачах машинного зрения 


Если в любом из популярных HHTepHeT-TIOHCKOBHKOB ввести запрос с ключевыми сло- 
вамн «обработка изображений», то большинство выпавших ссылок скорее всего будут 
связаны с редактированием цифровых фотографий в системах типа Photoshop wan co- 
зданнем разнообразных визуальных эффектов наподобие Tex, которымн столь славен 
в последнее время Голливуд. Данный учебный курс. несмотря на схожее название, по- 
священ совсем иному кругу вопросов. В центре нашего интереса находятся математн- 
ческие, алгорнтмические. программные н апгаратные средства. дающие возможность 
воспроизводить н автоматизкровать при помощи компьютеров те зрительные функ- 
UHH человека, которые позволяют ему дистанционно орнентироваться в окружающем 
мире, понимать его, выполнять те или иные стоящие перед ним целевые задачн. В 
60-е годы прошлого века задачи такого тнпа ставились скорее в теоретической плос- 
кости и обобщенно относились к области «распознавания образов», в свою очередь 
входящей в еще более пафосную научную отрасль под названием «искусственный 
интеллект». Сегодня, полвека спустя, когда теории во многом превратились B TexHo- 
логин, мы гораздо более скромно говорнм о технической дисциплине под названием 
«машинное зрение». Это не означает, что в области обработки н анализа изображений 
не осталось открытых проблем, — нх огромное количество. Но признаком несомнен- 
ной зрелости нашей прикладной наукн является то. что теперь этн вопросы всегда 
ставятся в практической плоскостн. с учетом обязательных н близких перспектив 
технического внедрения. И значит, у студентов. решивших посвятить определенное 
время изученню данного учебного курса, нмеется достаточно серьезный повод Hane- 
яться, что полученные знання, скорее всего, окажутся професснонально востребованы 
в ближайшие 10-20 лет. Причем число организацнй H компаний, в которых сегодня 
существует илн завтра возннкнет потребность в специалистах подобного профиля, 
продолжает стремительно увеличиваться. 

Наверное, одна из самых дерзких целей, которые могут быть поставлены перед 
научно-ннженерным сообществом — это задача создання роботов, не уступающих по 
возможностям свонм создателям. Подобно человску, такне роботы должны иметь раз- 
нообразные органы чувств, возможность анализнровать поступающую информацню, 
делать на ее основе целеполагающие выводы, вырабатывать н реализовывать про- 
граммы поведения н т. д. Однако эта гордая мечта натыкается на препятствие уже 
в самом начале, а именно при попытке создать систему понимання изображений — 
искусственное (или, как чаще говорят) машинное зренне. Далее мы будем использо- 
вать обобщающий термин «машинное зрение» (machine vision) как понятке, нанболее 
полно объемлющее круг ннженерных технологий, методов H алгоритмов, связанных C 
задачей интерпретации сцены наблюдения по ее двумерным проекциям (нзображенн- 
ям), а также практическое использование результатов этой интерпретации. 

Рассматривая homo sapiens как самую совершенную H3 известных нам систему 
управления, можно на основе сравнения C последиимн достяжениямн в механике, 
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электронике H раднотехнике, вычислительных архнтектурах н платформах сделать 
вывод, что многне элементы зтой системы управления уже имеют искусственные aHa- 
логн. Например, современные сенсоры уже превосходят человеческнй глаз — как по 
xapakTepHCTHKaM разрешення, так н по возможностям наблюдения сцены в различных 
спектральных днапазонах. 

Вычислительные платформы демонстрируют непрекращающийся бурный рост. 
Счет ндет на Tepa- н пентафлопсы, колоссальные успехи наблюдаются в промышлен- 
ной робототехнике н мехатронике, марсоходы исследуют соседние планеты. Однако 
огромное (увы!) отставание в технологиях «искусственного интеллекта» н его важной 
составляющей части — понимании сцен н изображений — остается сегодня, no Cy- 
TH, основным сдерживающим фактором для дальнейшего развнтня сложных систем 
управления. Кроме роботов-андрондов к классу объектов, обладающих подобными 
сложнымн системами управления, можно, безусловно, OTHeCTH самолеты, корабли, 
автомобили, производственные комплексы н многое другое. 

Невозможность полноценного автоматнческого анализа сцен на таком уровне, на 
каком это делает даже ребенок, вынуждает исследователей двнгаться постепенно, 
разбивая задачу машинного зрення на ряд подзадач меньшей сложности, таких как 
улучшение изображений, их стандартизация (нормализация), выделение особых ха- 
рактерных элементов н т. п. 

Зрение — наиболее информативный канал восприятня окружающей действнтель- 
ности. Объем ннформации, поступающей от зрення (объем видеопотока), на порядки 
превосходит объемы данных от других органов чувств. Однако другая сторона этой 
информационной вакханалин — колоссальная избыточность изображений. Ведь ино- 
гда для практического применения может оказаться достаточно только одного байта 
информации — есть илн нет в поле зрения нужный предмет. (Как зрительная система 
человека в принципе может справляться с ннформационной избыточностью, было, B 
частностн, показано в фундаментальном исследовании Д. Марра.) 

Стремясь защнтить человека oT непомерной н рутинной работы, макснмально NO- 
вышая функциональные возможностн человеко-машинных систем, разработчики npu- 
шлн к созданию таких приложеннй, в которых лишь некоторая часть зрительных 
задач возлагается на машннную часть снстемы. Таковы, например, снстемы «уснлен- 
ного» видения, системы формирования зон интереса для человека-оператора н T. A. 

По сути, нанболее точным термнном, отражающими пронсходящее развнтне CO- 
временных сложных снстем управления, служит термин «интеллектуализация», т.е. 
достижение все большего функционального сходства с возможностями человека. Как 
следует нз вышесказанного, ключевой аспект интеллектуализации — прогресс в Tex- 
нологнях машинного зрення. 

Каждый, кто глубоко сталкнвался с проблемой конструнровання снстемы TexHH- 
ческого зрения, осознает, какой большой разрыв существует между современнымн 
достижениями в этой дисциплине H реальным зрительным восприятнем Человека, 
Еще более обндно для научного сообщества To, что великолепное уменне орнентнро- 
ваться в сложных сценах демонстрируют даже не самые развитые на вид животные, 
например, таракан илк муравей. Почему же задача понимания изображений оказы- 
вается на проверку такой необычайно сложной? На взгляд авторов этой книги здесь 
можно привести трн соображення. 

Первое — это необыкновенное разнообразие яркостно-геометрических свойств 
нзображения. Каких только расцветок, форм, текстур н HX немыслимых сочетаний 
ни преподносит нам природа н человеческая фантазия! Все это богатство He HMeeT 
жесткой причинной взанмосвязн, не вытекает нз действия каких либо физических 
законов, позволквших бы упростить модельное описание сцены наблюдения. Зна- 
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чит, нужны все новые, все более гибкие математические н информационные подходы 
к описанию содержимого нзображений при помощи формально сконструнрованных 
яркостно-геометрических структур. Такие подходы действительно создаются — MOP- 
фологни Серра, Пытьева, теорня фракталов н T. N., но до окончательных успехов здесь 
пока далеко. 

Второе соображение — это колоссальная изменчивость, существующая в царстве 
изображений. Истоки этой изменчивостн также бесконечно разнообразны и трудно 
формализуемы — случайная urpa света, отклонения формы н размеров, тысячи виндов 
искажений н шумов. Не забудем н постоянно возникающий из-за трехмерной природы 
сцены фактор загораживания объектов интереса. Все это выдвнгает очень тяжелое 
требование устойчнвостн работы алгоритмов в трудных условиях — требование po- 
бастностн. Это объясняет интерес к любым математическим подходам в обработке 
изображений, несущих в себе элементы робастностн, например к преобразованию 
Хафа, оценнванню на основе ранговых CTaTHCTHK H др. Однако недостатки существу- 
ющих методик н нужда в Новых подходах здесь по-прежнему очевидны. 

Третье соображение касается информационной поддержки процесса поннмания 
сцен. Ясно, что система, желающая что-то понять, должна обладать огромной базой 
знаний об окружающем мнре. Организация этой базы, ее наполнение, актуализация — 
очень непростые задачн. Достаточно вспомнить, что формирование аналогичной базы 
в сознании человека 3aHHMaeT долгне годы. 

Представляется, что на сегодняшний день нанболее продуктнвен так называемый 
модельный подход, который сводит общую проблему «понимания изображений» к го- 
раздо более простой н ясной проблеме обнаружения н распознавания или измерения 
по одному илн нескольким изображениям объектов, удовлетворяющих некоторому 34- 
ранее известному модельному описанию. Теория машинного зрения предлагает целый 
ряд различных модельных описаний наблюдаемых объектов, которые могут быть HC- 
пользованы для их обнаруження н измерения. В литературе описан широкий спектр 
таких моделей — от простейших признаковых описаний до высоко спецкалнзирован- 
ных H нзошренных структурных моделей. Однако общий метод составления работо- 
способных моделей по вышеупомянутым соображенням отсутствует. Отсюда следует, 
что разработка н нспользование моделей, пригодных для эффективного решения за- 
дачи обнаружения соответствующих объектов, в значительной степени остается на 
грани наукн H нскусства, то есть требует особого eknow-hows илн, другими слова- 
мн, знання предметной области, отражающего многолетний опыт исследований no 
решению частных задач. 

Решение задачи автоматического выделення сложных объектов открывает перед 
CHCTeNaMH «машинного зрения» огромное число потенциальных областей применення, 
таких как промышленная инспекция и контроль качества, робототехннка, навигация 
н транспортировка, дистанционное зондированне, медицина H бномеханнка, инженер- 
ный труд, автоматизация проектнровання, новые технологин обработки документов, 
бнометрня H множество других. При этом сама задача обнаруження объектов являет- 
ся, безусловно. базовой, но частной технологической задачей по отношению ко всему 
комплексу основных целевых задач, которые в общих чертах могут быть сформулн- 
рованы следующим образом: 

1) калибровка сенсоров, самоорнентация H самопозиционирование: 

2) обнаружение объектов и изменений в сцене наблюдения; 

3) слежение за объектами; 

4) реконструкция поверхностей н обнаружение трехмерных структур; 

5) высокоточные измерения элементов сцены; 

6) опнсанне сцены н идентификация объектов; 
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7) организация зрительной обратной связи при работе управляемых устройств, Ma- 
нипуляторов кли мобильных роботов в изменчивой среде. 


1.1.1. Уровни и методы машинного зрения. На протяженин десятн-пятнадцатн 
последних лет в алгорнтмическом аспекте последовательность действий по обработке 
изображения принято рассматривать в согласин с так называемой модульной парадиг- 
мой [30]. Эта парадигма, предложенная Д. Марром на основе длительного изучения 
механизмов зрительного воспрнятня человека, утверждает, что обработка изображе- 
ний должна опираться на несколько последовательных уровней восходящей ннформа- 
uHoHHOR линин: OT «нконнческого» представления объектов (растровое изображение, 
неструктурнрованная ннформация) — к нх снмволическому представлению (вектор- 
ные н атрибутивные данные в структуркрованной форме, реляционные структуры н 
т. п.). Исходя из этого, в области машннного зрення прннято выделять следующие 
основные этапы обработкн данных: 

e предобработка нзображений: 

€ сегментация; 

e выделение геометрической структуры; 

® определенне относительной структуры н семантнкн. 

Связанные с этими этапами уровни обработки обычно называются соответствен- 
но: обработка нижнего уровня, среднего уровня, высокого уровня. В то время как 
алгорнтмы обработки ннжнего уровня (фильтрация простых шумов, гистограммная 
обработка) могут рассматрнваться как хорошо проработанные н детально нзученные, 
алгорнтмы среднего уровня (сегментация) продолжают сегодня оставаться централь- 
ным полем прнложення инженерных H исследовательских уснлий. За последние годы 
значительный прогресс был достнгнут по отношению к проблемам сопоставления то- 
чек н фрагментов изображений (matching) [176], [242], выделения признаков внутрн 
малых фрагментов [172], [215] [226], высокой точности 30-познционнровання точек 
[175], [178], что подразумевает соответствующее моделнрованне н калибровку дат- 
чиков H HX комбинаций, выделенне простых яркостно-геометрических структур Tuna 
«точка», «край», «пятно», «прямая линия», «угол» [135], [136], [204], [215], [238]. 

Методы обработкн высокого уровня, относящиеся собственно к «пониманню нзоб- 
раженнй», по-прежнему представляют собой «вызов» для сообщества исследователей 
в области компьютерного зрения н искусственного интеллекта. Безусловно, перспек: 
тнва создания будущих поколений «интеллектуальных машин» в основном зависит OT 
дальнейшей разработки нменно этого круга алгоритмов. 

В настоящее время известно несколько основных a/ITODHTMHUeCKHX подходов н Ma- 
тематических формализмов, используемых прн разработке практических CHCTeM aHa- 
лиза изображеннй. Это гистограммные преобразовання, анализ проекций, лннейная н 
нелинейная фнльтрация изображений, яркостная и текстурная сегментация, корреля- 
ционное обнаруженне н согласованная фильтрация, морфологический подход Пытье- 
ва, математическая морфология Серра, метод «нормализации фона», преобразование 
Хафа, структурно-лингвистический подход н ряд других. Большинство этих методов 
будут рассмотрены в данной книге. 

Значительный вклад в разработку методов H алгоритмов обработки изображений 
и машинного зрения внесли работы Л. П. Ярославского, П.А. Бакута, В. К. Злобнна, 
В. К. Баклицкого, В.Г. Лабунца, В.Л. Левшина, Ю.П. Пытьева, Ж. Серра, P. Хара: 
лика, Е. Дэвиса, У. Гренандера, К. Ty н многие другие. За последние десятилетия 
создано множество успешных систем машинного зрення, в которых в Тех или нных 
сочетаниях реализованы упомянутые подходы и парадигмы. Однако единого матема- 
тнческого формализма H еднной общепризнанной методики разработки алгоритмов 
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анализа изображений по-прежнему не существует, н, следовательно, наука об обра: 
ботке изображений все еще находится B развитин, переживая пернод роста, чреватый 
возможностью появления в любой момент новых самых неожиданных H революцион: 
ных методик H теорий. 


1.1.2. Сопряженные техннческие дисциплины. Наряду с термнном «машин- 
ное зрение» в литературе часто употребляются такне понятия, как зренне роботов 
(robot vision). компьютерное зрение (computer vision), обработка нзображений (image 
processing), понимание изображений (image understanding). Рассмотрим взанмоотно- 
шення этих понятий с тем, чтобы установить смысл терминов, которые будут нсполь- 
зоваться здесь в дальнейшем. 

Компьютерное зрение представляет собой научную дисциплину, изучающую Teo- 
рию и базовые алгоритмы анализа изображений н сцен. 

Машинное зрение следует рассматривать как гораздо более комплексную H тех- 
нологическую область научных н`инженерных знаний, охватывающую все проблемы 
разработки практических систем: выбор схем освещения исследуемой сцены. выбор 
характеристик датчиков, HX количества н геометрии расположения, вопросы калкб- 
ровки и орнентнрования, выбор или разработка оборудования для оцифровки H npo- 
цессорной обработки, разработка собственно алгорнтмов H Mx компьютерная реалнза- 
ция — то есть весь круг сопутствующих задач. 

Зрение роботов мы предлагаем трактовать как более узкую область технологий 
машинного зрения, а именно, Ty их часть, которая обеспечивает функцноннрова- 
ние систем машинного зрения в условнях жестких временных ограничений. К этому 
понятию, безусловно, относятся проблемы разработки основанных на изображениях 
информационных систем, входящих в состав систем управления сложными динамиче- 
скими объектами (самолет, автомобиль, системы контроля технических н технологн- 
ческих процессов на производстве}, так как необходимость формирования обратных 
связей по результатам обработки входных нзображений в системах управлення, оче- 
видно, требует ux быстрого анализа в реальном масштабе временн. 

Традиционный термин «обработка изображений» чаще употребляется в послед- 
ние годы не как обозначение научной дисциплнны, а как указатель на предметную 
область. Наметилась также тенденция нспользовання этого термина для обозначения 
обработки нижнего уровня, когда результатом обработки нзображення снова является 
нзображенне. В то же время теринн «понимание изображений» употребляется для 
обработки верхнего уровня, часто в контексте применения методов искусственного 
интеллекта [127], [138]. 

Машинное зрение тесно связано с целым рядом смежных дисциплин. Это — 
уже упоминавшиеся ранее компьютерное зренне, искусственный интеллект, а Tak- 
же распознавание образов (pattern recognition) н цифровая фотограмметрия (digital 
photogrammetry). 

Цифровая фотограмметрия, бурно развивающаяся последние годы дисципли- 
на, пришла на смену аналитической фотограмметрни. В то время как классическая 
аналитическая фотограиметрня изучала в основном метрические соотношения меж- 
ду точками снимков H реальной сцены, современная цифровая фотограмметрня, осо- 
бенно так называемая close-range (не очень удачный перевод «короткобазисная», но 
другого русскоязычного термина пока нет) ставит самые сложные задачи анализа н 
ЗО-описания сцены по вндеоданным оптических сенсоров. В широком смысле многие 
ведущие западные ученые в настоящее время нспользуют термины digital close-range 
photogrammetry н machine vision практически как сннонимы. В узком смысле счн- 
тается, что цифровая фотограмметрия концентрируется прежде всего не на вопросах 
«понимания» сцены или обнаружения объектов, а на вопросах высокоточного изме- 
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рення различных ее элементов и реконструкции форм трехмерных поверхностей с 
использованием стерео- н многокамерной съемкн, а также специального структурн- 
рованного подсвета. 


1.1.3. Требования к алгоритмам машннного зрения. Приступая к нзучению 
предмета «машинное зренне», необходимо помнить о TON, ЧТО это, прежде всего, HH- 
женерная прикладная дисциплина. Всякая прикладная техническая дисциплина отлн- 
чается от фундаментальной теоретической дисциплины наличнем конкретных практн- 
ческих ограничений, налагаемых на развиваемые в ее рамках методы н порождаемые 
ей ниструменты решення практических задач, 

Рассмотрим требования к методам н алгоритмам машинного зрения на примере 
занболее специфической группы алгорнтмов — алгоритмов обнаружения объектов Ha 
изображениях, При этом будем рассматривать трн основных тнпа требований: 

e робастность; 

€ TOSHOCTb, 

е вычислительная реализуемость. 


Робастность, Разрабатываемые намн алгорнтмы, решающие прикладные за- 
зачин машинного зрения, должны работать на реальных изображениях. В то же вре- 
мя каждый, кто на практике пытался конструнровать алгоритмы обработки реальных 
изображений, хорошо знает, насколько нзменчивы H неформализуемы могут быть фак- 
торы, влияющие на процесс ux обработки н анализа, Вот только основные из этих 
факторов: 

1) помехи и «шум» — имеют десятки BHAOB источников возникновения, к числу 
которых можно отнестн несовершенство сенсоров пркемо-передающей аппаратуры нк 
аппаратуры оцифровки изображений, трудные условия съемки, недостаток освещения 
а ряд других; 

2) сложный текстурированный фон, на котором должно пронсходить обнаруже- 
зие объектов, напрниер, обнаружение штриховой наклейкн на схожей с ней по струк- 
туре газетной страннце u T. п.; 

3) эффекты загораживания (заслонения) одних объектов другнин объектамн, 
как правило, не определенной заранее формы, например — облако на космофотосним- 
кент. п. загораживающие помехн; 

4) нскажающие оптические эффекты в виде различных расфокуснровок, дистор- 
сий объективов, ракурсных искажений н AP.: 

5) эффекты резкой смены освещения, блики, тени, особенно в динамически ме- 
=яющихся сценах; 

6) разнообразие и изменчивость самих объектов — переменная структура (как 
т текстовых строк, автомобильных номеров HJIH штриховых кодов), возможные де- 
Фекты, временные изменения формы (сгибанне-разгибание конечностей, движенне 
механических частей машин), вегетационные циклы для растительности н т. п.; 

7) эффекты изменения среды между сенсорами и объектами наблюдения — 
задымленне, атмосферные осадки, пыль, нскусственные помехи H многое другое; 

8) несинхронность регистрации и обработки данных в динамнческих задачах, 
связанная с ограниченнями быстродействия компьютерных средств хранения нк aHa- 
лиза изображений — особенно критична для промышленных приложений с заданным 
зременем реакции на событие. Сюда же можно отнести также сбон в компьютерных 
срограммах обработки. 

Даже беглый анализ приведенных факторов легко установит практнческую невоз- 
можность HX полного формального математического описання — вероятностного, pa- 
тяометрнческого илн геометрического. 
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Отсутствие формализованного описания ключевых факторов, вносящих неопреде 
ленность в процесс обработки, приводит к тому, что, в отличие от многих други; 
областей обработки снгналов, говорить о существовании единственного оптимально 
го алгоритма для решення той илн иной задачн обработки изображений практическь 
невозможно. Так, например, только для задачн сегментации графики H текста Hi 
цифровых изображениях документов придуманы сотни принципиально различных ал 
горитмов. Представим себе, что существует несколько алгоритмов, достигающих прн 
мерно одннаковых результатов на «идеальных» изображеннях. Тогда возникает есте 
ственный вопрос, как сравнить этн алгоритмы по качеству их работы. При разработк 
реальных алгоритмов в настоящее время стандарт «де факто» состонт в проверке эф 
фективностн работы сконструнрованных алгорнтмов на больших выборках реальны; 
данных или изображениях, содержащих по возможности все неприятные ситуации 
Такие алгоритмы, которые обладают устойчивостью к значительным нскаженням I 
меняющимся факторам, принято называть устойчивыми илн робастными. Робаст 
ность следует считать первым основным практическим требованнем при разработки 
алгоритмов машинного зрення. 


Точность. Второе важнейшее свойство. которым должны, как правило, o6 
ладать алгоритмы обнаружения объектов на изображеннях, можно определить xal 
точную локализацию объектов, подлежащих обнаружению, HIH контуров объектов 
подлежащих измерению. Это означает, что необходимо не просто выделить объект 
но н точно указать в системе координат изображения (клн сцены) его положение 1 
размеры в каком-либо смысле. Несколько неясное толкованне «локализации», данно! 
выше, связано с тем, что по сравнению со своей эталонной моделью объект може’ 
быть заметно нскажен геометрически, причем аналитическая модель нскажения MO 
жет отсутствовать. Характерные прнмеры — штриховой код, находящийся Ha смятоі 
упаковке, пятно на коже нт. п. В этих случаях локализация объекта является нетрн 
внальной задачей. В более простой ситуацин, при аналитически заданной с точностьк 
до параметров геометрин искажений, под точной локализацией можно понимать зна 
ние о положении какой-либо характерной точки объекта н параметрах геометрин HC 
каження (поворот, аффинные коэффициенты. изгибы н др.). При этом встречающнес: 
случан ошибок локализации целесообразно разделить на две группы — нормальны: 
н аномальные ошибки. 

Нормальная ошибка — это правильная локализация объекта с некоторой по 
зицконной нлн параметрической неточностью, характеризуемой количественным! 
оценками. Для объектов, характеризуемых габарнтнымн размерами, большими че! 
(3 x 3) + (5х5) элементов изображения, позиционные нормальные ошибки могу 
быть значительно меньше размера элемента нзображення, уменьшаясь с величнно! 
объекта. В этом случае принято говорить о субпиксельной локализации, или суб 
пиксельных измерениях. Это особенно важно для задач стереообнаруження, так ка: 
при малых параллаксах ЗО-объектов субпиксельная привязка самым существенны! 
образом определяет точность измерения HX пространственного положення. 

К аномальным ошибкам следует отнести ситуацию перепутывания объектов ил! 
возникновение артефактов, что связано C фатальными количественными ошибкам! 
позиционирования или просто ложным обнаруженнем. Требования no исключеннь 
или ограннченню уровня аномальных ошибок составляют очень важную часть требс 
ваний к алгоритмам обнаруження. 

Заметим также, что требования по точности предъявляются H к алгоритмам об 
работки изображений низкого уровня. Например, во многих измерительных задача, 
фильтры, устраняющие помехн, не должны прн этом существенно изменять видимо 
положение контуров объекта. Требованне «сохранения краев» нлн, в более общем BH 
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де, сохранения нензменнымн измеряемых характеристик полезного сигнала является 
принципиальным требованием «по точности», предъявляемым B машнином зрении к 
алгоритмам нижнего уровня, поскольку, еслн данные былн «нспорчены» уже Ha HHX- 
нем уровне обработки, то на более высоких уровнях анализа никакие самые совер- 
шенные математнческне методы помочь не смогут, н задача в целом не будет решена 
с необходимой точностью. 


Вычислительная реалнзуемость. Несмотря на колоссальный путь, 
который прошла в целом вычислительная техника за последние декады двадцатого н 
первые годы двадцать первого века, несмотря на создание обширной специализиро- 
ванной процессорной базы для обработки изображений, в основной массе приложений, 
особенно промышленных приложений реального времени, характеристики вычисли- 
телей и нх свойства все еще далеки от желаемых. 

Важное отличие, присущее процедурам обработки н анализа изображений no срав- 
нению с задачами распознавания или интерпретации уже сегментированного образа, 
заключается в том, что обнаружение и измерение в практических задачах всегда свя- 
зано с процедурой поиска объекта. Именно реалнзация процедуры понска объекта 
связана с угрозой лавинообразного роста потребного числа вычислений. Пронллю- 
стрируем это на примере простой задачи поиска объекта на основе сравнения с раст- 
ровым эталоном или шаблоном (template). Если построить какой-либо функционал 
соответствия между объектом размером М x М и фрагментом М x М из изображе- 
ния N x N, то простой перебор фрагментов требует количества вычислений не менее 
чем M? x № операций, что составляет, например, 10 миллиардов операций при раз- 
мере объекта 50 x 50, а изображения — 2000 х 2000 элементов. Даже принимая во 
внимание значительное увеличение возможностей современных компьютеров, такие 
объемы вычислений заннмают секунды машинного времени, что далеко выходит за 
пределы требований систем обнаружения реального времени, предназначенных для 
таких задач, как навигация H наведение, инспекционный контроль, обработка маши- 
ночитаемых документов H T. п. 

Более того, реальные задачн обработки визуальной информации изобнлуют допол- 
нительными степенями свободы, когда нскомая яркостно-геометрическая структура на 
нзображении может иметь не только произвольные положение, угловую ориентацию H 
масштаб, но н подвергаться разным преобразованиям, не только аффинным или про- 
ективным, но и гораздо более сложным, таким как различные «резиновые» модели илн 
«коробление» (warping — нскажение, напоминающее смятую бумагу}. Все это мно- 
гократно увеличивает потребное для перебора время расчетов н требует применения 
качественно новых идей по организации процесса анализа изображения. 

Оценивая размер изображения, предназначенного для обработки, например, как 
1000 на 1000 элементов, что не является чем-то необычным для современных видео- 
датчиков (можно вспомнить, что бытовые цифровые фотоаппараты н даже мобнльные 
телефоны давно перешли отметку 2 мегапиксела в ПЗС-матрице), мы получим na- 
же для простейших операций характерную оценку количества потребных вычислений 
порядка нескольких гнгафлопов операций на кадр. Причем приложениям реально- 
го времени необходимо выполнять этн вычисления в темпе кадровой развертки, что 
приводит к оценке потребного быстродействия около 50 Gilop/sec. Сами по себе этн 
оценки не являются запредельными для мощных современных компьютеров, однако 
следует учесть, что основные приложения машинного зрения находятся B Tex обла- 
стях, где массогабаритные и стонмостные характеристики конструнруемых устройств 
по определению ограничены и должны быть весьма невелики. 
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Таким образом, вычислительная реализуемость алгоритмов машинного зрения по- 
прежнему относится к числу нанболее важных факторов, которые необходимо учи- 
тывать при их разработке. 


1.2. Программное обеспечение, используемое в рамках учебного курса 


Данная книга нмеет подзаголовок «Курс лекций н практических занятий». Предметом 
книги является компьютерная дисциплина. Соответственно, н практическке занятня в 
рамках данного учебного курса должны проводиться с использованием компьютеров H 
соответствующего специализированного программного обеспечения (ПО). Но каково 
должно быть это программное обеспечение? 

Одна нз возможностей заключается в TOM, что студенты должны программиро- 
вать описываемые алгоритмы обработкн изображений на каком-либо языке высокого 
уровня Tuna Pascal илн С++. Однако, во-первых, программирование всех необходи- 
мых алгоритмов заняло бы слишком много времени, во-вторых, студенты обладают 
различным навыком н уровнем программирования, наконец, в-третьнх, проведение 
необходимых практических работ требует, помимо собственно программирования ал- 
горитмов, также написання огромного объема сервисного ПО для визуализации n306- 
ражений, обеспечения интерактивного ввода параметров, векторной графики и т. п. 
Поэтому непосредственное нспользование программирования в рамках подобного кур- 
са представляется не самым лучшим решением. 

Альтернативой является использование готового специализированного ПО для 
изучения методов обработкн н анализа изображений. Такое ПО мы ежедневно uc- 
пользуем в своей практической деятельности, его же положили в основу практической 
частн этого курса. В данном разделе мы кратко рассмотрим принципы его построения 
н способы работы с ним. 

Как мы уже отмечали выше, единого математического формализма н единой об- 
щепрнзнанной методики разработки алгоритмов в области машинного зрення пока 
He сушествует, н вряд ли OHH будут разработаны в ближайшие десятнлетня. Это, с 
одной стороны, является серьезной проблемой, затрудняющей н замедляющей раз- 
работку новых приложений н практических систем машинного зрения, а с другой 
стороны делает сам процесс разработки алгорнтмических н программных средств для 
систем машинного зрення подобным увлекательной нгре в кубики, прнчем задача раз- 
работчика в этой игре — комбинируя те илн иные готовые anropurMHueckHe блоки, 
добиться решения поставленной технической задачн. 

Разработка снстем анализа н обработки цифровых изображений обязательно вклю- 
чает следующие этапы: 

1) предварительное исследование свойств типовых изображений; 

2) анализ применимости известных методов обработки изображений в данной KOH- 
кретной задаче; 

3) разработка новых алгоритмов; 

4) первичная программная реализация новых алгоритмов H качественная проверка 
нх эффективности; 

5) окончательная программная реализация алгоритмов. 

Выполнение всех этих операций связано с непосредственным использованнем Bbl- 
числительной техники. Причем, в связн с тем, что в настоящее время наибольшее 
распространение получилн персональные компьютеры, HNeHHO OHH, как правило, AB- 
ляются основой рабочего места разработчика алгоритмического обеспечения даже в 
тех случаях, когда окончательная программная реализация алгоритмов предполагает- 
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ся на базе других вычислнтельных устройств. Таким образом, необходимым условием 
работы как отдельного разработчика, Tak н коллектива разработчиков в данной 06- 
ласти является нспользование некоторой единой программной среды, реализованной 
на ПЭВМ. При этом разработчику необходимо нметь под рукой готовый инструмен- 
тарнй известных и практически полезных методов анализа н обработки изображений, 
а также соответствующую среду разработки, позволяющую максимально быстро ре- 
ализовывать те илн нные комбинации алгоритмов и визуализировать результаты их 
работы. 

Сегодня на рынке существует целый ряд программных средств подобного рода. 
Широко применяется, в частности, среда визуального программнрования LabVIEW 
с библиотекой компонентов обработкн н анализа изображений IMAQ Vision фнрмы 
National Instruments (США) [15], [205]. Не менее известен и пакет Mathiab, в котором 
также имеются достаточно развитые средства для решения задач обработки изобра- 
жений н видеопоследовательностей [129]. Можно привести и другие примеры. Это 
показывает, что тот путь, по которому мы шли, создавая свой учебный н разработче- 
ский пакет для анализа изображений Pisoft Image Framework (далее — Pisoft), aana- 
ется в целом правильным H находится в русле общемировых тенденций. Косвенно об 
этом свидетельствует и значительное количество лабораторных, курсовых M диплом- 
ных работ, успешно выполненных студентами при помощи этого пакета. В рамках 
этих работ решались достаточно содержательные задачи машинного зрення, однако 
выполнены онн были без использования трудоемких технологий программнрования на 
алгоритмических языках типа C илн Pascal. Модульные алгоритмы формнровались н 
сразу же отлаживались в системе Pisoft на реальных вндеоданных путем визуального 
программирования необходимых схем обработки. 

В настоящей книге все излагаемые теоретическне положения н описываемые мето- 
ды машинного зрения будут нллюстрироваться примерами схем обработки, созданных 
в данном программном пакете. Целью подобного «параллельного» изложения являют- 
ся: 

с одной стороны, создание общего теоретического фундамента в области ана- 
лиза и обработки изображений, знакомство с базовымн математическими методами 
и алгорнтмическимн процедурами; 

н B TO же время, выработка навыка самостоятельного практического анали- 
за изображений, позволяющего после прохождения данного учебного курса непо- 
средственно на практнке осуществлять быструю полноценную разработку прототнпов 
различных снстем машинного зрения. 

CD диск c инсталляцней снстемы Pisoft прилагается к данной книге, так что любой 
читатель сможет при желании по мере усвоения теоретического курса самостоятельно 
зыполнять все описанные в соответствующих разделах упражнения H примеры. 


1.2.1, Возможности и особенности системы Pisoft. Первоначально созданная 
з ГосНИИАС u в настоящее время поддерживаемая н развнваемая ЗАО «Инстнтут 
информационных технологий» (ИИТ) программная система Pisoft Image Framework 
предназначена для разработчиков н пользователей снстем обработки изображеннй н 
может применяться для практических, нсследовательскнх и учебных целей в качестве 
интегрированной среды работы с изображениями. Областямн применения данной CH- 
темы являются: медицина, металлургия, раднологня, фармакология. неразрушающнй 
контроль. геология, удаленное зондирование, дорожный мониторинг, слежение за ABH- 
жущимися объектами, автоматическое распознавание целей, распознавание н анализ 
ZOKyMeHTOB, мультнспектральный аналнз, аналнз текстур н многне другие. 

История проекта Pisoft (Professional Imagery SOFTware) к настоящему speme- 
нн насчитывает более 20 лет. Ha протяженин всех этих лет пакет Р!зоЙ активно 
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использовался в учебном процессе базовой кафедры «Управляющие н информацион- 
ные системы» npu Гос НИИАС (ФГУП «Государственный научно-нсследовательский 
институт авиационных систем») факультета управления н прикладной математики 
Московского физнко-технического института (государственного университета) (заве. 
дующий кафедрой — академик РАН E. А. Федосов). 

Первые версин пакета (вплоть до версии 4.1) являлись исключительно инструмен: 
том визуального нсследовання изображений прн помощни просмотра численной аперту: 
ры, гистограммы яркости, профилей яркости и 30-визуализацин яркости. Кроме того 
были реализованы процедуры гистограминой обработки изображений. В версин 5.1 
впервые появились возможности пространственной обработки нзображений — окон: 
ная фильтрация и нормализация фона. Для этой версин был определен специальный 
внутренний язык программирования Pisoft н создана система отладки н исполнения 
(интерпретации) программ обработкн изображений на этом языке. В дальнейшем 
однако, встроенные средства програимнровання пакета Pisofl развивались в направ 
ленин неязыкового визуального программирования. Версия 6.0 ознаменовала собої 
перевод системы под операционную систему Windows. В ней также впервые бы 
использован многооконный интерфейс пользователя. В версин 7.0 была реализова 
на фреймовая концепция визуального программирования модульных схем обработки 
изображений, которая приняла свой окончательный вид в версии 9.0. При этом был 
обеспечен режим опііпе-обработки данных, такой, что любое изменение данных в лю 
бом узле схемы приводит к автоматическому измененню всех последующих результа 
тов обработки. Разработанные схемы н соответствующие экранные формы могут быт! 
сохранены для дальнейшего многократного нспользовання. 

В настоящее время структурные возможности данной системы обеспечивают: 

e поддержку импорта изображений из боле чем 50 популярных файловых форматов 

ө загрузку, обработку, просмотр н сохранение бинарных, полутоновых (8- н 16 
битных) н цветных (включая truecolor) изображений, а также любых двумерных 1 
одномерных числовых массивов — как целочисленных, так H вещественных; 

e скорость обработки, совместимую с работой в реальном временн; 

€ возможность адаптивного формирования н передачи от блока к блоку параметро 
процедур обработки; 

€ возможность пополнения системы путем регистрации новых фреймов (в том чис 
ле, и разработанных пользователем) в уже ннсталлированной н работающей версии; 

€ возможность автоматического пересчета н отображения соответствующих гес 
метрических характеристик пользовательских меток от любой точки схемы обработк: 
к любой другой точке этой схемы. 

Функцнональный состав системы включает большинство популярных процедур обра 
ботки н анализа одномерных н двумерных числовых массивов: 

e анализ профилей яркостн, апертур, проекций н гистограмм, разлнчные средств 
геометрических измерений; 

e линейные, нелинейные н произвольные геометрическне преобразовання; 

® алгебранческие операции над одним илн несколькими изображениямн; 

e линейные, нелинейные н произвольные яркостные H цветовые преобразования; 

е лннейная к нелинейная фильтрация изображений в пространственной области; 

e фильтрация изображений в частотной областн, wavelet transform; 

e корреляцнонная прнвязка фрагментов; 

ө сегментация нзображеннй, выделение н аналнз областей н контуров; 

e математическая морфологня Серра; 

e преобразованне Хафа, обнаруженне прямолннейных структур; 

e понск характерных структур; 
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® текстурный анализ; 

• выделение объектов, вычисление геометрических признаков; 

• вычисление статистик. 

Таким образом, в настоящее время пакет Р!зой Image Framework представляет co- 
бой интегрированную среду обработки н анализа изображений, которая предполагает 
визуальное программирование структурных модульных схем обработки изображений 
из имеющихся стандартных блоков. Эта среда реализована в виде приложения для 
операционной снстемы Windows. 

Рассмотрим теперь нанболее интересные отличительные черты системы Pisoft — 
фреймовую программную архнтектуру н фреймовый интерфейс пользователя. 

В 1995 году для создания систем обработки н анализа изображений в Гос НИИАС 
была предложена оригинальная «фреймовая» программная архитектура ([247}, [260], 
[269]). Она отличается следующими основными особенностями. 

1. Базовым элементом программной архнтектуры являются программные фрей- 
мы — объекты, объединяющие данные, процедуры н линки (связи C другнмн фрейма- 
мн). Любая схема обработкн в этой архитектуре представляется в виде сети фреймов. 
Ее структура определяется набором фреймов н установленнымн между ними связямн. 

2. Фреймы принимают н порождают сообщения, которые распространяются по 
линкам и определяют порядок «запуска» соответствующих процедур обработки nan- 
ных. Такая структура позволяет организовывать автоматическую обработку данных 
по мере ее поступления вне зависимости от числа источников информацин н степенн 
нх временного рассогласования. Для полноценного функционирования сети фреймов 
необходимы три основных типа фреймов: фреймы данных, фреймы обработки и 
фреймы управления. Конкретный набор типов фреймов данной предметной области 
полностью определяет функциональные возможности проектируемых программиых 
систем. 

3. После создания базового набора фреймов любые схемы обработки данных могут 
быть сформированы непосредственно путем графического визуального программиро- 
вания без использования какого-либо дополнительного программирования на языках 
низкого или высокого уровня. 

Программные системы, разработанные с использованием фреймовой технологии, 
обеспечивают: 

® оригинальный фреймовый интерфейс пользователя; 

€ возможность интерактивно формировать из имеющихся готовых блоков любые 
схемы обработки без использования какого-либо специального командного языка (пу- 
тем фреймового визуального программирования); 

€ возможность осуществлять автоматическую обработку данных в заданной схеме 
по мере их обновления (режим eírames-on-line»). 

Фреймовый интерфейс пользователя поддерживает: 

®адаптивную настройку меню системы в зависимости от ее текущего состояния, 
текущего активного окна и характера выполняемых действий; 

• адаптивную настройку режима ввода н вывода интерактивной векториой графи- 
ческой информации (маркеры, линии, кривые, прямоугольники и т.п.) во всех иеоб- 
ходимых окнах одновременно; 

e удобную проблемно-ориентированную навигацию в многооконном интерфейсе; 

®адаптивную настройку системы помощи в зависимости от текущего состояния 
системы, текущего активного окна и характера выполняемых действий. 

Отметнм также, что в ходе работы над системой Pisoft Image Framework было 
2aspa6oraHo и отлажено следующее специальное программное обеспечение: 

® базовая библиотека поддержки фреймового программирования; 
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® среда визуального программироваиия сетей фреймов; 

e базовый набор фреймов, реализующий платформу обработки визуальной инфор- 
мации; 

e библиотеки алгоритмов обработки и анализа нзображений. 


1.2.2. Опыт использования системы Pisoft. Поскольку мы рекомендуем своим 
читателям и студентам (по крайней мере на время освоения учебного материала) 
воспользоваться системой Pisoít, считаем необходимым коротко поделиться своим 
опытом ее использования. Надеемся, этот рассказ поможет составить предварительное 
представление о том, в чем и насколько данный пакет может оказаться полезным — 
как в рамках, так и за пределами данного учебного курса. 

В различные периоды времени перед разработчиками пакета Pisoft ставились cne- 
дующие основные задачи: 

e использование пакета Pisoít в качестве базового средства анализа изображений 
на этапе разработки специализированного ПО для конкретных приложений; 

e использование программных модулей пакета Р1зой в качестве базовой библиоте- 
ки при разработке специализированиого ПО для коикретных приложений; 

e использование пакета Pisoít в качестве базовой программиой оболочки для раз- 
работки специализированиого ПО для коикретиых приложений; 

ө использование пакета Р!зоЙ как обучающей программы в области обработки 
изображений; 

e использованне пакета Pisoft как средства разработки пользовательского ПО в 
области обработки изображений. 

Определенные результаты были получены по каждому из указанных направлений. 

Можно утверждать, что на протяжении последних десяти лет система Pisoft дей- 
ствительно активно и успешно использовалась в лабораториях машинного зрения 
l'ocHAHAC и ИИТ в качестве основного средства анализа нзображений. За это время 
с использованнем пакета Pisoft было смоделировано и разработано несколько десятков 
сложных практических приложений в области машииного зрення. 

Программные модули, изначально разработаиные для проекта Pisolt, можно под: 
разделить на снстемные и семантические. Системные модули предназначались для 
реализации графического интерфейса пользователя систем анализа изображений. Эти 
модули практически являлись системной основой всех программных проектов, осу- 
ществленных в лаборатории компьютерного машииного зрения ГосНИИАС, и ряда 
проектов ИИТ. B частиости, на базе библиотеки Z LIB и системы Pisoft [mage 
Framework версий 8.0-9.0 были реализованы такие комплексные проекты в области 
машинного зрения, как 

e программное обеспечение для вндеоввода и анализа изображений для видеоси- 
стем производства ЗАО «Видеоскан»; 

® аппаратно-программный комплекс для биомеханических исследований; 

€ система для автоматического выделения и фильтрации следа движущихся частиц 
на цифровых изображениях, полученных при скоростной видеосъемке потока частиц; 

e система ССО-регистрации для считывания флуоресцентных карт; 

e программно-аппаратный комплекс для автоматического определения подлинио- 
сти акцизных марок; 

®автоматизированное рабочее место врача-диагноста для работы с радиологиче- 
скими медицинскими изображениями; 

e программное обеспечение для автоматизированного выделения элементов дорож- 
ной разметки; 

e программно-аппаратиый комплекс для автоматического распознавания и подсчета 
некондиционных кристаллов иа круглой пластине; 
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Реализован и ряд других проектов (многие из этих приложений описаны в главе 7 
данной книги). 

Такнм образом, можно заключнть, что именно развитие проекта Pisoít обеспечи- 
вало базис системного программирования при разработке всех основных проектов, 
осуществлявшихся в лабораториях машинного зрения ГосНИИАС и ИИТ как в обла- 
сти обработки изображений, так и в области цифровой фотограмметрии. 

Семаитические модули системы Pisoft, содержащие конкретные процедуры анали- 
за изображений, редко использовались вне системы Pisoít. Скорее наоборот, наблюда- 
лась тенденция к переносу в Pisolt семантических модулей, разрабатываемых в ходе 
зругих проектов. То есть пакет Pisoft выступал в ponn хранилища (и интегрирован- 
ной среды использования) разработанных алгоритмов, откуда их затем можно было 
вновь извлечь и применить в другнх программных системах. 

Использование системы Pisofl в качестве базовой программной оболочки пред- 
лолагало наполнение системы добавочными проблемно-орнентированными фреймами, 
которые, вместе с уже имеющимися, позволяли бы составить модульную схему 06- 
работки данных для решения конкретной задачи. Таким путем был разработан, B 
частности, ряд медицинских радиологических приложений. Однако последующий ana- 
лиз результатов выполнения данных проектов показал, что практически все фреймы, 
зходящие в финальные проблемно-ориентированные схемы обработки, либо являлись 
човыми. специально разработанными для каждой конкретной задачи, либо были су- 
шественно модифицированы применительно к каждой данной задаче. По-видимому, 
задачи, решаемые в области обработки изображений, столь различны по своей приро- 
ie. что не допускают существенной стандартизации методов их решения, и на прак- 
тике речь идет He о наполнении базовой фреймовой системы, a о разработке новых 
систем с использованием некоторых элементов из базового набора. В то же время, 
опыт работы показывает, что хотя имеющиеся в системе Pisoít инструменты визу- 
гального аналнза изображения («лупы», «профили», «апертуры», гистограммы и T. п.), 
как правило, не нужны в окончательных вариантах схем обработки, HO их наличие B 
этих схемах рядом с новыми фреймами на этапе разработки алгоритмов чрезвычайно 
ловышает эффективность работы, в частности, сокращает время поиска логических 
ошибок в алгоритмах. То есть система Pisoft часто выступает в роли специализиро- 
ванного отладчика разрабатываемых систем компьютерного и машинного зрения. 

С самого начала своего существования пакет Pisoft активно использовался в Ka- 
честве обучающей программы в области обработки изображений при проведении 
теоретических и практических занятий, а также при выполнении курсового и ди- 
2ломного проектирования студентами базовых кафедр МФТИ, МИРЭА и MAH при 
ГосНИИАС. При этом особенно полезной оказалась предоставляемая последними вер- 
CHAMA данного пакета возможность выполнения действительно сложных нсследова- 
тельских курсовых и дипломных проектов студентами, которые не владеют в доста- 
точной степени навыками программирования на алгоритмических языках программи- 
зования. 

За время развития данного проекта идея использования пакета Pisoít в качестве 
непосредственно средства разработки конечного пользовательского ПО в области об- 
работки изображений возникала несколько раз. Однако практика показала, что для 
гользователя-непрофессионала (например, врача) не только программирование на cne- 
<иальном языке, но и визуальное программирование схем обработки представляется 
слишком сложным и ненужиым. С другой стороны. для разработчика-профессионала 
построение модульных схем обработки из модулей системы Pisoft представляет опре- 
геленный интерес, но только на этапах предварительного исследования свойств H306- 
гажений и анализа применимости известных методов, так как набор этих модулей 
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достаточно ограничен и неспецифичен для конкретной задачи. В связи с этим воз 
можность псевдокомпиляции сформированных в пакете Pisoít схем обработки в от 
дельные исполняемые ЕХЕ модули, присутствовавшая в версиях 8.0-8.5, в версии 9. 
была исключена, и ее поддержка в дальнейшем не планируется. 

В то же время, можно отметить и существеиные преимущества системы Р/зой kai 
средства, используемого на иачальных этапах разработкн: 

® общая структура программы задается и отлаживается заранее н потом може 
быть фиксироваиа; 

€ в ОТЛИЧИе от систем визуального грограимирования с последующей компиляцие! 
исполняемого кода типа LabVIEW ([91, [205]. [207]), в процессе разработки в Pisof 
схема уже «живет» в режиме on-line, и промежуточные результаты работы могут быт: 
сразу проверены; 

• процесс разработки отдельных фреймов является полностью раздельным, и по 
этому система идеально подходит для совместной разработки проектов группами и. 
нескольких разработчиков; 

• система обеспечивает оптимальные возможности отладки алгоритмов именно | 
области анализа и обработки изображений. 

Таким образом, практический выход проекта Pisoft на сегодня можно оценить Kal 
весьма значительный, а результаты его использования в целом — как положительные 
и далеко выходящие за пределы одной лишь обучающей функции. 

От имени всех разработчнков желаем вам успехов в освоении и практическом 

нспользовании системы Pisoft. 


1.3. Структура книги и работа с ней 


1.3.1. Назначение и принципы изложения материала. Данный учебный курс воз 
ник в результате обработки конспектов лекций, читавшихся на протяжении ряда по 
следних лет на базовой кафедре «Управляющие и информационные системы» прь 
ГосНИИАС (ФГУП «Государственный научно-исследовательский инстнтут авиацион 
ных систем») факультета управления и прикладной математики Московского физико 
технического института (государственного универснтета) (заведующий кафедрой - 
академик РАН Е. А. Федосов). За это время студентам специальности «Автоматнзиро 
ванные системы обработки ннформации и управления» были неоднократно прочитань 
такие взаимосвязанные базовые курсы, как «Обработка и анализ изображений». «Ма. 
шинное зрение», «Видеометрия». Кроме того, был разработан и более углубленныі 
курс «Математические методы анализа изображений», рассчнтанный на аспнрантог 
и преподавателей по тем же специальностям. Параллельно велась н практнческая ра. 
бота по разработке реальных приложений машинного зрения, следы которой можнс 
обнаружить в последней главе данной книги. При этом студенты и аспиранты активнс 
привлекались к практической производственной деятельностн. и таким образом кур 
учебных занятий был постоянно связан с реальной работой и реальными приложения: 
ми. Такой подход к изучению прнкладной компьютерной дисцнплнны представляется 
нам наиболее правнльным, и дух его мы постарались сохранить в данной кннге. Е 
TOM чнсле это повлияло и на принятую структуру изложения материала. 

Эта киига адресована студентам, аспирантам и преподавателям технических вузог 
и может использоваться в качестве учебного пособия при изучении соответствую- 
щнх специальностей. В том числе предполагается и возможность самостоятельногс 
изучення матернала с использованием необходимых программных средств для прове- 
дения практическнх и лабораторных работ (см. предыдущий раздел). Это позволяет 
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также рекомендовать данный курс для использования в программах дистанционного 
обучения. 

Материал в книге имеет три уровня изложения. 

1. Базовый курс «Обработка и анализ изображений», посвященный в основном 
алгоритмическим вопросам; 

2. Базовый курс «Машинное зрение», посвященный практическнм приложениям н 
специалнзированным технологиям; 

3. Углубленный курс «Математические методы анализа изображений», посвящен- 
ный математическим аспектам рассматриваемой проблемной области. 

Освоение базового курса не требует от студентов каких-либо дополнительных 
знаний, выходящих за рамки школьной программы. Углубленный курс предполагает 
знакомство с математическими понятиями на уровне базовых ннститутских курсов 
алгебры, математического анализа и теории вероятности. Заголовки разделов, отно- 
сящихся к углубленному курсу. помечены звездочкой. 

В связи с такой «трехслойной» структурой изложення, некоторые (немногие) пунк- 
ты и идеи оказались изложены дважды — сначала в простейшей, а затем в углублен- 
ной трактовке. В гнпертекстовом электронном документе можно было бы избежать 
ловторов, указав лишь ссылку на соответствующий материал. Однако в бумажном H3- 
данин мы стремились добиться того, чтобы каждый раздел при необходимости можно 
было изучать независимо, не отвлекаясь постоянно на выяснение вопросов, раскрытых 
в другнх частях курса. 

Студентам, впервые самостоятельно изучающим обработку изображений и машин- 
ное зрение, мы рекомендуем знакомиться с материалом в том порядке, в котором он 
расположен в данной книге, пропуская разделы, помеченные звездочкой. Впослед- 
ствии эти разделы можно будет изучить отдельно. 

Поскольку на базе данного учебника можно читать несколько различных учебных 
курсов различного объема (одно-, двух- и трехсеместровых), то и разбивка изучае- 
мого материала по лекциям, равно как и порядок и подробность изложения, в этих 
случаях оказываются различными. Это было одной из причин, по которой мы не стали 
называть теоретические разделы «лекциями» — ведь при различном способе подачи 
материала может потребоваться иначе компоновать материал. В то же время, структу- 
ра практических занятий, которые можно проводить с использованием системы Pisoft, 
кажется нам достаточно логичной и вполне устоявшейся, поэтому соответствующие 
разделы так и называются — «практические занятия». Естествеино, порядок их может 
варьироваться. 


1.3.2. Структура и содержание книги. Простейший взгляд на структуру этой 
хниги заключается в том, что мы просто старались последовательно раскрыть все 
ключевые слова, входящие в название книги и характеризующие ее предмет и содер- 
жание: 

«Обработка и анализ изображений в задачах машинного зрения (курс лекций и 
практических занятий)» 

Ключевые слова: image, image processing, image analysis, machine vision. 

Соответствеино, вторая глава книги посвящена ИЗОБРАЖЕНИЯМ. Третья глава 
эписывает процедуры их ОБРАБОТКИ. Главы с четвертой по шестую посвящены за- 
1auaM их АНАЛИЗА, включая выделение и описание характерных элементов, срав- 
нение и привязку изображений (matching), обнаружение и идентификацию объектов, 
методы математнческого описания формы изображеннй. Седьмая глава описывает со- 
временные технологии и приложения МАШИННОГО ЗРЕНИЯ. При этом сначала в 
хаждой главе излагаются теоретические положения, которые следует рассматривать 
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как лекционный материал, а затем приводится описание соответствующих практ 
ческих занятий с использованием системы Pisoft. 

При более подробном рассмотрении книга оказывается устроена несколько бол 
сложным образом. В целом при определенин последовательности расположения мат 
риала мы следовали изложенной выше общепринятой парадигме «уровней обработки 
HO были вынуждены сделать и определенные отступления от нее. 

Вторая глава посвящена не только цифровым растровым изображениям, ! 
и цифровым видеопоследовательностям. При этом значительное внимание уделяет. 
таким аспектам природы цифровых изображеннй, которые относятся скорее к обл 
сти машинного зрения, нежели к чистой сфере компьютерного программирования 
способы лолучення изображений, аппаратное обеспечение, физические характерист 
ки изображений разных диапазонов. Сюда же мы поместили и сведения о формат; 
хранения изображений. С точки зрения уровней обработки данных, возможно, бол. 
логично было перенестн эту информацию в главу, посвященную способам описані 
изображений (то есть в четвертую!), но поскольку без знакомства с распростране 
ными форматами невозможно начать практическую работу с изображениями, мы и 
ложили этот материал здесь. 

Третья глава посвящена методам обработки изображений. При этом пи 
обработкой изображений в узком смысле здесь понимается такая «низкоуровнева: 
обработка изображення, результатом которой также является растровое изображен! 
(регулярная матрица цифровых отсчетов) или другой растровый объект (наприме 
одномерный массив или двумерная меточная карта). Нет сомнений, что такие т 
мы, как методы гистограммной обработки (эквализация, нормализация), получен! 
профилей и проекций, преобразования цветовой палитры, фильтрация бинарных 
полутоновых изображений — по праву расположены именно в этой главе. Несколы 
сложнее обстоит дело с методами гистограммной бинарнзации и сегментации, как 
с операторами выделения контуров, также описанными здесь. В самом деле — зад 
чи сегментации традиционно относятся к среднему уровню анализа изображений, 
им, соответственно, посвящен первый раздел четвертой главы. В то же время, алг 
ритмические механизмы гистограммной сегментации и выделения контурных точе 
практически совпадают с аналогичными процедурами гистограммной обработки и zi 
нейной фильтрации растровых изображений. Поэтому мы сочли излишиим разрыва: 
однородный материал и решили провести линию разделения «низкого» и «среднег‹ 
уровней обработки по чисто формальному упомянутому выше признаку. В резул 
тате, например, алгоритмы выделения контурных точек остались в третьей главе, 
дальнейшие преобразования контуров, связанные с их прослеживанием и векторны 
описанием или символьным кодированием. отправились в четвертую. 

В четвертой главе первый раздел посвящен классическим задачам зсре, 
него уровня» — выделению и описанию таких характерных элементов изображен, 
(характерных черт, features), как особые точки, контуры и области. Второй разде 
посвящен одной из базовых задач анализа изображений — их сравнению и взаимнс 
привязке (matching). При этом в качестве «пробного камня» для методов привязк 
и сравнения изображений в данном разделе рассматривается не столько задача pa: 
познавания объектов, сколько проблема стереоотождествления (stereo matching 
связанная с тоехмерным зрением и обычно расположенная в известных курсах обр: 
ботки и анализа изображений в иных разделах, скорее связанных с фотограмметрие 
и геоинформатикой. Между тем, наш собственный опыт как разработчиков систе 
машинного зрения свидетельствует о том, что задача стереоотождествления являет 
одной из центральных и лежит в основании большинства совремеиных подходов 
построению практических систем именно машинного, технического (а не только KON 
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пьютерного) зрення. Соответственно, мы обратились к этой задаче на более ранних 
этапах изложения матернала. 

Пятая глава посвящена задаче обнаружения н идентификация объектов на 
изображениях, традиционно считающейся «вершиной» пирамнды уровней обработки. 
Однако начинаем мы этот раздел с опнсания преобразования Хафа (Hough Transform) 
н его модификаций, которые традиционно считаются методами выделения не столь- 
ко объектов, сколько геометрических примитивов (линий, кругов н т. п.), то есть 
объектов «среднего уровня». Дело в том, что мы считаем методы голосования типа 
преобразования Хафа методически н логически предшествующими современным METO- 
дам обнаружения объектов «верхнего уровня». Такое обобшенное понимание методов 
голосования имеет свою традицию в литературе, в частностн, сторонииками такого 
взгляда на обнаружение объектов являются Баллард [123], [124] и Дэвис [140]- [149]. 
Последний к тому же является автором замечательного англоязычного учебника [149], 
в котором данная точка зрения, которую мы разделяем, проводится достаточно по- 
следовательно H подробно. Таким образом, путеводной нитью для нас является здесь 
ндея «зрения на основе моделей» (model-based vision). Если этн модели простые, 
плоские — мы имеем дело с процедурами выделения примнтивов «среднего уровня», 
если более сложные, трехмерные — можно решать задачн выделення целевых объ- 
ектов «верхнего уровня». Идеология одна н та же, разница скорее количественная. 
Соответственно, в данном разделе рассматриваются далее способы построения н npu- 
вязки структурных моделей трехмерных объектов. Завершается раздел рассмотрением 
группы вероятностных методов обнаружения н ндентификацин объектов, получивших 
нанменование методов анализа свидетельств (evidence-based analysis). Здесь кратко 
излагается ряд современных разработок такого подхода, в том числе н по результатам 
наших собственных работ (естественно, этн разделы помечены звездочками). 

Шестая глава, посвященная морфологическому анализу изображений, сто- 
ит несколько особняком. До снх пор логика расположения глав в целом все-таки 
следовала концепции «восходящих уровней обработки ннформацин»: от растрового 
нзображения н методов его обработки — через методы выделення характерных черт — 
к решению задач обнаружения H идентификации объектов на основе структурных MO- 
делей. Казалось бы, все этапы обработки пройдены, н пора переходить к описанию 
практических приложений машинного зрення (которым посвящена последняя, седь- 
мая глава книги). Однако прежде нам представлялось необходнмым еше раз взглянуть 
на пройденный путь, но уже несколько под иным углом. 

Если от способа изложения, сконцентрированного на задачах обработки н ana- 
лиза изображений (что характерно для базового курса), перейти к способу изложе- 
ния, сфокусированному на математических моделях н методах (что характерно для 
продвинутого курса «Математические методы...»), то представленная в предыдущих 
разделах картина будет крайне неприятно напоминать лоскутное одеяло. С одной сто- 
роны, конечно, радует возможность использования в задачах обработки изображений 
элементов практически из всех областей математикн. С другой стороны, ощущается 
некая серьезная неудовлетворенность — неужели не было в нашей областн науки NO- 
пыток создания обобщающих теорий, стремящихся выявить H реализовать нанболее 
общие механизмы представления нзображеннӣ н работы с ними? Разумеется, былн. 
Именно поэтому мы сочли логичным завершить систематическое обсуждение методов 
обработки н анализа нзображений рассмотрением наиболее на наш взгляд амбицноз- 
ных обобщающих подходов, созданных к настоящему времени в области компьютер- 
ного зрения — математической морфологии и морфологического анализа. Базовые 
нден этих подходов давно вошли в привычный инструментарий разработчиков систем 
машинного зрения и, несомненно, по праву занимают свое место в базовом курсе 
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обработки изображений. В то же время, нанболее продвинутые результаты здесь тре 
буют определенного уровня математнческого абстрагировання H склонности к таком 
теоретнческому рассмотрению проблем (соответствующие углубленные разделы Tat 
же помечены звездочкамн). 

Седьмая глава посвящена технологиям и приложениям машинного 3peHut 
Однако н она оказалась не свободна от формул и теоретических построений. Дел 
в том, что в предыдущих главах были описаны основные математические н алгс 
ритмические подходы, используемые при решении общих задач машинного зрени: 
Между тем, в настоящее время процессы специализации в области машинного зрени 
зашли так глубоко, что иногда впору говорить o расслоении некогда единой област 
на несколько отдельных прикладных областей. Несмотря на общую, Ha наш взгляј 
идейную н математическую основу, методы, которымн решаются, например, задач 
анализа движения, сегодня разнтельно отличаются от методов бнометрического pat 
познавання или методов технических измерений. Поэтому помнмо примеров практ, 
ческих систем машинного и компьютерного зрения в данной главе представлены 
несколько вспомогательных теоретических разделов, описывающих математнческие 
алгоритмические основы специализнрованных подходов к решенню соответствующи 
проблемно-орнентированных задач. Каждая нз них заслуживает отдельного учебног 
курса, но здесь мы уже ограннчнваемся лишь краткими ознакомительными введе 
ниями в соответствующие проблемные областн. В данной главе звездочками (дл 
углубленного нзучення) помечены как раз такие разделы, посвященные методам 
технологиям, чтобы не путать нх C разделами, посвященныии конкретным система 
и приложениям. 

Практические приложения и технологии сгруппированы намн по следующим круг 
ным тематическим блокам: авиацнонные н космические приложения, обработка дс 
KyMeHTOB, оптическое распознавание, понск визуальной информации, автоматизаци 
измерений и технический контроль, зрение роботов, видеонаблюдение H снстемы бе: 
опасности, поисковые Системы, биометрия, медицинские приложення. Такая классь 
фикация не является ни общепринятой, ни сколько-нибудь обоснованной. Скорее м 
опираемся здесь на собственный опыт разработчиков практических систем н удел; 
ем большее внимание тем задачам, с которыми мы непосредственно знакомы, H 
которых, соответственно, можем судить более квалифицированно. Спектр рассмот 
ренных приложений npH этом оказывается достаточно широким, хотя, eCTeCTBeHH( 
не исчерпывающим. 


1.3.3. Границы бесконечиости (о чем вы не прочтете в этой книге). * Нельз 
объять необъятное. Поэтому целый ряд тем, которые примыкают к рассматриваемы 
здесь вопросам H часто освещаются в аналогичных учебных пособиях, не будут изл‹ 
жены совсем или будут описаны частично. 

Прежде всего, речь идет о тематнке «распознавания образов». На заре эры w 
кусственного интеллекта связка «обработка изображений н распознавание образов 
считалась совершенно естественной н не подлежащей сомнению. Ho на сегодняшнн 
день эта обширнейшая область, получившая в настоящее время названне machin 
learning (машинное обучение), содержит развитый н хорошо проработанный аппара’ 
который, вообще говоря, не имеет никакого отношення собственно к изображения 
илн даже к зрению в широком смысле. Принцнпы распознавания образов предполаг: 
ют, что любой объект нлн процесе может быть описан некоторым набором признако 
илк другим формальным onHCaHHeM, и уже на основе этого формального описанн 


* Словосочетание «границы бесконечнссти» позанмстяовано из названия романа Л. М. Буджолд. 
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далее может быть опознан илн классифицирован H T. д. ит. п. То есть после опнсания 
изображения или объекта на изображении работа собственно с изображением прак- 
тически заканчивается, H дальше уже действуют еднные механизмы распознавания, 
одинаковые как для объектов на изображениях, так H, например, трендов биржевых 
котировок. Соответственно с этого момента теорня распознавания образов как раз н 
выходит за пределы нашего интереса, сосредоточенного на работе с изображениямн 
н решенни задач машинного зрения. С методической точки зрения систематическое 
знакомство с ндеями н методамн распознавания образов крайне полезно для спецнали- 
стов в области машинного зрения. Мы предполагаем, что соответствующий учебный 
курс должен в обязательном порядке читаться студентам данной специальности — 
ранее, параллельно илн после настоящего учебного курса. Для самостоятельного изу- 
чения этой тематики можем порекомендовать ряд книг — [11], [20], [22], [23], [45] 
и замечательный интернет-ресурс machinelearning.ru. Однако в данной книге Bonpo- 
сы распознавания образов освещаются достаточно поверхностно H только в связи C 
конкретными приложениями, такими как обнаружение H идентификация трехмерных 
объектов, распознавание лиц, отпечатков пальцев нли символов текста. 

Крайне скупо и поверхностно касаемся мы здесь и вопросов аналитической фото- 
грамметрии [29], которая, несомненно, является основой современных систем трех- 
мерного зрення, включая н обработку данных, получаемых непосредственно на основе 
лазерного сканирования. 

Никак не освещается в этой книге тематика оптики M компьютерной оптики 
гоптических вычислений). 

Вообще достаточно мало внимания уделяется вопросам аппаратной реализации 
систем машинного зрения — вопросам выбора датчнков, подсветки, физике форми- 
рования изображений, структуре вычислительных систем H т.п. Здесь мы не ндем 
далее того, что изложено в второй главе н некоторых разделах седьмой главы, хотя 
как практики мы отлично понимаем, что нменно на уровне аппаратного обеспечения 
зачастую определяется финальный успех системы машинного зрення. Как говорнтся, 
garbage in — garbage ош (ерунда на входе — ерунда на выходе). Если не уда- 
лось получить изображение минимально необходимого качества, то анализировать 
ero дальше математическими способами бесполезно. Если к тому же н вычислитель- 
ные ресурсы не позволяют реализовать обработку нужной сложности за требуемое 
время, To все математические н алгоритмические изыскн можно сразу отправить в 
корзину. Тем не менее, эти вопросы остались за пределамн данного учебного курса н 
данной книги. 

Вопросы алгоритмической реализации н вычнелительной эффективности npoue- 
дур обработки изображений постоянно находятся в центре нашего внимания, од- 
нако это касается лишь собственно тех специфических алгоритмов, которые Heno- 
средственно реализуют обработку изображений. Например, мы никак не исследуем 
эффективность используемых алгоритмов сортировки [25] илн более глубокие вопро- 
сы вычислительной геометрии [33]. Также не рассматриваются способы эффективной 
программно-аппаратной реализации процедур обработкн в различных параллельных 
вычислительных архитектурах. 

Вопросы компьютерной графики [32], несомненно, чрезвычайно близко примыкаю- 
шие к вопросам компьютерного зрення, также практическн не рассматриваются (хотя 
имеется ряд упоминаний в пятой главе прн описании методов трехмерного моделнро- 
вания). 

Работая в авнацнонном институте, участвуя в создании H тестировании бортовых 
систем, мы постоянно сталкиваемся в своей практике с задачами сопряжения NOACH- 
стем технического зрения с системамн управления н другкмн техническими CHCTeMa- 
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MH, присущими самим объектам управлення. Это отдельная большая тема, OT серьез- 
ного обсуждения которой в рамках данного курса нам также пришлось отказаться. 

Мы не стали, как это делают авторы многих учебников по специальным темам, 
приводить краткне сводки требующихся для понимания соответствующих разделов 
математических понятнй. Опыт преподавания показывает, что в качестве минимально 
необходимой сводки понятий практически везде в этой кинге может использоваться 
замечательный и популярный справочник [7]. Лишь в некоторых разделах для углуб- 
ленного изучения предполагается более детальное знакомство с алгеброй в объеме 
[10], математическим анализом в объеме [27] н теорией вероятности в объеме [35]. 

Наконец, не будучи особенными сторонниками бнонического подхода к HCKyC- 
ственному (техническому) зренню, мы после некоторых колебаний исключили из 
проекта кинги раздел, связанный с описанием того, как по современным научным 
представленням работают механизмы получения н распознавания зрительной ннфор- 
мации в естественном зрении — у человека H животных. Обычно мы рассказываем 
об этом на вводной лекции, поскольку с мировоззренческой точки зрения это очень 
важный материал. Ho с точки зрення практики мы вполне можем разрабатывать CH- 
стемы технического зрения, не нмея никакого представления о том, как те же (а на 
самом деле — с учетом таких технических деталей — совсем иные) задачи реалнзу- 
ются в живой природе. «Зрение» в техническом смысле имеет достаточно мало OTHO- 
шения к человеческому зрению. Исходя из решаемых задач и нспользуемых средств, 
современное двумерно-трехмерное многоспектральное, многокамерное (многодатчнко- 
вое) спецнализированное (в отличие от универсального человеческого) техническое 
зрение следовало бы, вероятно, называть He vision (зренне), a remote sensing (дистан- 
ционное получение пространственной информации). Поэтому всех интересующихся 
тематикой естественного зрения MH адресуем к соответствующей специальной ли- 
тературе — от классического труда Гельмгольца [18] до его современного аналога, 
созданного Марром [30], н всеобъемлющих современных обзоров результатов, nony- 
ченных в нейрофизиологин, пенхология н когннтивной науке [14]. 


1.4. Литература для самостоятельного изучения 


В одном учебном пособии трудно исчерпать все возникающие вопросы. Поэтому в 
каждом разделе книги приводится комментированный список литературы для само- 
стоятельнсго изучения обсуждаемых вопросов. В соответствующих списках литера- 
туры вы встретите ссылки на: 

®обширные сводные курсы по обработке изображений H машинному зрению, KO- 
торые представляют свой взгляд на Te же вопросы, которые здесь обсуждаются; 

® лубликации-первоисточники, в которых впервые былн предложены те HJIH иные 
базовые методы и идеи; 

® монографии по отдельным темам; 

€ свежне и относительно свежие статьи в иностранных H российских журналах, 
а также трудах российских и международных конференций. 
При этом приоритет, как правнло, будет отдаваться сводным курсам, первонсточникам 
н монографням. Дело здесь He в том, что авторам было лень знакомиться со свежкми 
научными публикациями — такую работу мы, как H все наши коллеги, ведем посто- 
янно. Просто действительно полезные н орнгинальные иден в любой области наукн 
появляются достаточно редко, а затем они, как правнло, многократно повторяются с 
различными модификациями. Авторы таких идей заслуживают признання, поэтому 
вопрекн сложившейся в последние годы практике (связанной, видкмо, C растущим 
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значением нндексов цитируемости) мы предпочитаем ссылаться Hà первонсточникн — 
zaxe через много десятков лет после нх публикации. Однако нанболее простое н 
улобопонятное нзложение хорошо известного матернала, как правило, содержится 
все-таки He в пнонерских работах, а в учебниках. Кроме того, учебником можно за- 
ластись в самом начале изучения курса, H впоследствин он всегда будет под рукой, 
причем заменит сразу 20-30 специальных работ. Поэтому мы постоянно ссылаемся 
на небольшое чнело других популярных сводных курсов, подобных нашему. Наконец, 
снетематнческое н углубленное изложение каждого специального круга вопросов сле- 
сует искать B специализированных монографиях по соответствующим темам. Что же 
касается самых свежнх публикаций — если HX ценность заключается лишь в том, 
что они свежне — то любые обзоры текущих работ, приведенные в печатном изда- 
нии. имеют тенденцию стремительно устаревать. Сегодня, в эпоху Интернета, каждый 
уважающий себя студент, а тем более аспирант или научный работник способен са- 
мостоятельно найти публикации последних лет на сайтах журналов н конференций. 
Поэтому свежне публикации мы будем упомннать лишь в тех редких случаях, когда 
OHH Содержат на наш взгляд что-то действительно ценное. 


Основной список литературы ло базовому курсу обработки и анализа изобра- 
жений в целом имеет следующий вид. 

1) Марр Д. Зрение. Информационный подход к изучению представлезия и обработки зри- 
тельных образов. — M.: Радно н связь, 1987. [30] 

2) Гонсалес Р., Вудс P. Цифровая обработка изображений. — М.: Техносфера, 2005. [19] 

3) Форсайт A., Понс Дж. Компьютериое зрение. Современный подход. — М: «Вильямс», 
2904. [44] 

4) Шапиро Л., Стокман Дж. Компьютерное spenne: Пер. с англ. — М: БИНОМ. Лабора- 
торня знаний, 2006. [49] 

5) Дуда P., Харт П. Распознавание образов и анализ сцен: Пер. с англ. — М.: Мир, 1976. 
23] 

6) Прэтт У. Цифровая обработка изображений: Пер. с англ. — М.: Мир, 1982. [34] 

т) Хуанг Т. С. Обработка изображения н цифровая фильтрация. — M.: Мир, 1979. [47] 

8) Павлидис T. Алгоритмы машннной графики H обработки изображеинй: Пер. c англ. — 
M.: Радно и связь, 1986. [32| 

9) Хорн B. К. IT. Зрение роботов. — М.: Mup, 1989. [46] 


Первым номером в данном коротком спнске является книга Д. Mappa, открывшая 
современную эпоху в компьютерном зреннн. Кннга напнсана ясным H увлекательным 
языком, касается самых основных принцнпов H закономерностей человеческого н тех- 
нического зрения, которые объясняются с мнннмальным прнвлеченнем математикн, 
# поэтому уже более 30 ner не теряет своей актуальностн н прнвлекательностн для 
читателя, впервые начннающего свое знакомство с данной областью. Чнтать ее может 
хаже Школьннк. 

Следующне трн позицин заннмают курсы по обработке изображеннй н машннному 
зренню. 

Кннга (Гонсалес, Вудс) — лучший учебный курс для знакомства студентов с 
методами обработки и анализа изображений низко-среднего уровня. Она отлнча- 
ется ясным н подробным изложеннем, большнм количеством иллюстраций с примера- 
ми обработки нзображеннй, дознрованным н уместным нспользованнем математики. 

Кннга (Форсайт, Понс) средн переводных учебников последннх лет, пожалуй, 
=анболее близка к нашему представленню о логике изложения всего учебного Ma- 
тернала в целом. При этом авторы стараются максимально отразить нменно самые 
современные тенденцин н самые свежне результаты, нз-за чего местами нзложение 
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становится чуть переутяжеленным. Тем не менее, это лучший учебный курс для зна- 
комства с методами машинного зрения средне-верхнего уровня. 

Кннга (Шапиро, Стокман) также может использоваться в качестве универсаль- 
ного путеводнтеля по современному компьютерному зрению. К безусловным досто- 
HHCTBaM этой книги можно отнестн множество описанных в явном виде алгоритмов, 
готовых для непосредственного программнровання. Такнм образом, это лучший учеб- 
ник для программистов в области компьютерного зрения. 

Все три перечнсленных учебннка содержат богатые обзоры лнтературы, crpynnu- 
рованной no тематическнм разделам. Мы постоянно будем ссылаться на эти учебники 
в своих указателях литературы по соответствующим тематическим блокам. 

Остальные позицнн в нашем коротком спнске литературы, рекомендуемой сту- 
дентам для самостоятельного нзучення, занимают известные проверенные временем 
книгн, на которых выросло немало спецналистов B нашей области. Все онн, тем не 
менее, остаются практнческн полезнымн до CHX пор. 


Рекомендуемый спнсок литературы по курсу математических методов анализа 
изображений дополнительно включает: 

1) Лытьев Ю.П., Чуличков А.И. Методы морфологического анализа изображений. —М.: 
Физматлит, 2010. [38] 

2) Местецкий Л.М. Непрерывная морфологня бинарных изображений. Фигуры. Скелеты. 
Циркуляры. — М.: Физматлит, 2009. [31] 

3) Красовский A.A., Белоглазов И. H., Чигин Г. П. Теория корреляционио-экстре- 
мальных навигационных систем. — М.: Наука, 1979. [26] 

4) Acmanos Ю. M., Васильев Д. В., Заложнев IO. И. Теория оптнко-электронных следящнх 
систем. — М.: Наука. Физматлит, 1988. [3] 

5) Davies Е. R. Machine Vision: Theory, Algorithms, Practicalities. Academic Press, 3-rd 
Edition, San Diego, 2004. [149] 


Первые две книгн, изданные B самые последнне годы, впервые содержат система- 
тнческое нзложенне двух важных разделов морфологнческого анализа изображений. 
npu изученнн которых ранее прнходнлось ссылаться лишь на журнальные публнкацнн 
н публикации в сборннках. 

Кннга (Красовский, Белоглазов, Чигин) содержнт нзложенне класенческой Teo- 
рик корреляцнонно-экстремального аналнза, которому в данном курсе отводнтся до- 
статочно скромное место, хотя в нсторнн практнческой обработкн изображеннй он B 
свое время сыграл безусловно одну нз важнейшнх ролей. 

В книге (Астапов, Васильев, Заложнев) нзложен орнгннальный н заслужнваю- 
ацнй изучення подход к взанмной прнвязке нзображеннй на основе т. н. беспонсковой 
корреляцнн. 

Кннга Дэвнса, к сожаленню, до снх пор не переведена на русскнй язык, однако 
она столь хороша н столь близка к взглядам авторов на машинное зрение, что мы 
всегда неизменно рекомендуем ее нашим студентам н аспирантам. 


Рекомендуемый спнсок литературы по тем темам, которые не вошли в данный 
курс (см. параграф выше), включает: 

1) Дуда P., Харт П. Распознавание образов н аналнз сцен: Пер. с англ. — M.: Мир, 1976. 
[23] 

2) Вапник B. H., Червоненкис А. Я. Теорня распознавания образов. — M.: Наука, 1974. [11] 

3) Фу К. Структурные методы в распознаванни образов. — M.: Мнр, 1977. [45] 
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ME E У. Лекцин no теорни образов. — M.: Мир. T. |. — 1979; T. 2. — 1981; T.3. — 
1983. [22 

5) Горелик А. Г., Скрипкин B. А. Методы распознавания. — M.: Высшая школа, 1984. [20] 

6) Лобанов А. Н. Фотограмметрня. — M.: Недра, 1984. [29] 

7) Кнут Д. Искусство программировання. [25] 

8) Препарата Ф., Шеймос М. Вычислительная геометрия: Введенне. — М: Мир, 1989. [33] 

9) Лавлидис T. Алгоритмы машинной графнки н обработки изображеннй: Пер. с англ. — 
M.: Радно н связь, 1986. [32] 

10) Бронштейн H.H., Семендяев К.А. Справочник no математнке для инженеров н yya- 
щихся втузов. — М.: Наука, 1986. [7] 

11) Ван-дер Варден B. Л. Алгебра. — M.: Наука, 1979. [10] 

12) Кудрявцев Л.Д. Краткнй курс математического анализа: в 2-х тт. — М.: Физматлит, 
2005. [27] 

13) Пугачев В. С. Теорня вероятностей M математическая статистика. — M.: Физматлит, 
2002. [35] 

14) Гельмгольц. Зрение. [18] 

15) Марр Д. Зренне. Информационный подход к изучению представлення н обработки зри- 
тельных образов. — М.: Радио н связь, 1987. [30] 

16) Величковский B. М. Когнитивная наука: Основы психологии познання: в 2-х тт. — M.: 
Смысл; Издательский центр «Академия», 2006. [14] 


Список источников к разделу 1.2. 

1) Klinger T. Image processing with LabVIEW and 1МАО Vision. — Prentice Hall, 2003. [205] 

2) Визильтер Ю. B., Желтов C. Ю., Князь B. A., Ходарев A. H., Моржин A. B. Обработка н 
аналнз цифровых нзображеннй с прнмерами на LabVIEW н IMAQ Vision. — M.: ДМК-Пресс, 
2007. [15] 

3) Image processing with Mathlab. Blanchet G., Charbit M. Digital signal and image processing 
using MATLAB. Wiley-ISTE, 2006. [129] 

4) Zheltou S., Visilter Yu., Stepanov A., Morzeev Yu. The object-oriented frame approach to 
image processing and data management in the multisensory remote sensing // SPIE Proceedings. 
V. 2587. 1995. [260] 

5) Stepanov Å., Visilter Yu., Zheltou S., Morzeeu Yu. Object-Oriented Frame approach for 
:mproved interfaces design ior image processing systems // SPIE Proceedings. V. 2597. 1995. [247] 

6) Visilter Yu., Zheltou S., Stepanov A., Morzeeu Yu. Frames based analysis of multisensor 
:mage sequences//|SPRS Proceedings, International archives of photogrammetry and remole 
sensing. V. ХХХІ. P. B2. Vienna, Austria, 1996. [269] 

7) LabVIEW user manual. — National Instruments, 2003. [207] 

8) Бутырин П. А. н др. Автоматнзация фнзнческнх исследоваинй н экспернмента: компью- 
терные нзмерення н внртуальные прнборы на основе LabVIEW 7.0. — М.: ДМК-Пресс, 2005. [9] 


ГЛАВА 2 


ЦИФРОВЫЕ ИЗОБРАЖЕНИЯ 


2.1. Растровое изображение 


2.1.1. Изображение как двумерный массив данных. Когда мы смотрнм на ABY- 
MepHoe нзображенне какой-либо трехмерной сцены (ua картине, фотографин, экране 
моннтора), нам кажется, что там непосредственно прнеутствуют все те предметы, 
которые мы могли бы увндеть, ECAH бы непосредственно наблюдалн ту же сцену B 
жнзнн. Между тем, все, что нам на самом деле дано в двумерном H30ÓpaxeHHH, это 
видимое поле, представляющее собой лншь некоторую функцию распоеделения яр- 
кости илн цвета на двумерной плоскости: /(т, у). где т н y — декартовы коордннаты, 
опнеывающине плоскость нзображення. 

Более того, еслн приблизиться вплотную к экрану компьютерного монитора, MOX- 
но увидеть, что H3oÓpaxeHHe на экране на самом деле не гладкое н непрерывное, а 
представляет собой дискретную «мозанку», состоящую нз отдельных цветных прямо- 
угольников, расположенных B внде регулярной прямоугольной матрицы. Это H есть 
цнфровое изобра женне. C математнческой точкн зрения цифровое изображение пред- 
ставляет собой двумерную матрнцу іт[2,] размера DimX x DimY, где r — целое 
число от 0 до DimX - 1, опнсывающее номер элемента в строке матрнцы, y — целое 
число от 0 до DimY — 1, описывающее номер строки матрнцы, в которой расположен 
данный элемент. При этом сам элемент цифрозого нзображения (ячейка прямоуголь- 
ной матрнцы) HoCHT названне пиксел (pixel, picture element). В простейшем случае 
каждый пиксел Imízr,y] имеет скалярное целочнеленное значение, пропорциональное 
значенню функцнн распределения яркостн /(т,у) в данной точке плоскости. 

На рис. 2.1.1 слева показано изображение женского лица, представленное как 
изображение, а справа показан увеличенный фрагмент изображения того же лица 
(правый глаз), где для каждого элемента изображения указано соответствующее чнс- 
ловое значение пиксела. Светлым элементам изображения соответствуют большие 
значения матрицы, темным — меньшие значения. Никакой другой информации циф- 
ровое изображение не содержнт. 


Рис.2.1.1. Цифровое изображенне как двумерная матрниа интенсивностей 
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Начиная изучать машинное зрение, необходимо четко представлять себе, что B 
компьютере в качестве цифрового изображения хранится только H исключнтельно 
1вумерный массив чисел того HAH иного формата. Любые другие данные, которые мы 
хотели бы из изображения извлечь (фигуры, лннии, объекты, размеры, содержание 
изображенного текста H т.д. H т. п.) — могут быть получены лишь в результате npu- 
менения ряда процедур обработкн н анализа изображения, которые мы должны лнбо 
самн 3anporpaMMHpoBaTb, лнбо использовать готовые процедуры, нмеющиеся в H3- 
зестных пакетах программ для анализа нзображеннй. При этом для решения простых 
задач компьютерного зрения готовые средства наверняка найдутся в стандартных биб- 
лкотеках процедур обработкн изображений, для решения задач посложнее необходн- 
мо будет скомбинировать те HIH нные готовые процедуры, а для многих вполне «обы- 
ленных» задач, которые «биологическое» зренне человека, казалось бы, решает легко н 
играючн, компьютерное машинное зрение до сих пор решений не нмеет н все еще npo- 
1олжает нх искать. Ведь используя свое естественное зренне, человек легко орнентн- 
руется в любой обстановке, узнает предметы, выбирает путь, управляет автомобнлем 
я многое, многое другое. Почему же компьютер, получающий нзображенне от видео- 
камеры, всего этого не может? Может быть, дело в строении человеческого глаза? 

На самом деле человеческий глаз, как и видеокамера, всего лишь формирует ‹ви- 
1имое поле», аналогичное цифровому изображению. При этом оптическая система, 
состоящая из зрачка H хрусталика, проецирует двумерное нзображение на сетчатку 
глаза, где фоточувствительные клетки («палочки» н «колбочки») преобразуют nony- 
ченное изображение в нервные нипульсы. И только после этого сложный механизм 
обработки полученной информации, функционирующий в соответствующем отделе 
зашего мозга, интерпретирует 3TH импульсы как понятное нам изображение видимой 
сцены. Таким образом, к у человека функцию «видения» выполняет He один только 
глаз. но система «глаз + мозг» («сенсор + компьютер»). Именно встроенные в мозг 
алгоритмы обработкн информации позволяют человеку понимать TO, что OH видит. 
Роль этих встроенных алгорнтмов можно пояснить на следующем примере. 

Когда в середине ХХ века хнрурги-офтальмологи научились делать операции на 
хрусталике глаза, у многих слепых от рождения людей появилась техническая BO3- 
можность прозреть. То есть после такой onepauHH у человека, доселе слепого (свет 
просто не проходил через хрусталик). изображение на сетчатке начинало формнро- 
заться M соответствующие сигналы начинали поступать в мозг совершенно так же, 
хак это пронсходит у здоровых людей. К сожалению, в данном случае «увидеть свет» 
не означало «начать видеть». Как показала дальнейшая нсторня, большинство «тех- 
янчески прозревшнх» взрослых пациентов так ннкогда H не смогли достнчь в области 
зрения более существенных результатов, чем распознавание простых геометрнческих 
фигур — и даже это требовало от них серьезных сознательных уснлнй. Узнаванне же 
людей по лицам н ориентирование в пространстве так н остались для них непосиль- 
чымн задачами. Дело в том, что те встроенные механизмы «автоматического» 3pH- 
тельного анализа, которые развиваются у людей в раннем детстве, y этих пациентов 
se былн своевременно развиты, H они оказались в положении компьютера, имеюще- 
го устройство для ввода изображения, но He нмеющего необходимого программного 
эбеспечения для его анализа. 

Для того чтобы окончательно убедиться в сложности стоящей перед намн задачи 
анализа изображения, представляющего собой двумерный массив числовых данных, 
топробуем поставить себя на место компьютерной программы, нмеющей дело с ab- 
стэактнымн числами. Для этого мысленно нзменим модальность восирнятня изобра- 
жения — переведем его из визуальной области в тактильную. Представим двумерный 
массив значений интенсивности как шахматную доску, размер которой равен размеру 
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изображения DimX x DimY, а в центр каждой клетки воткнут столбик, высота KO- 
торого пропорциональна значению соответствующего пиксела нзображення. Инымн 
словами, рассмотрим двумерное нзображенне как некую условную трехмерную no- 
верхность. На puc. 2.1.2 слева фрагмент женского лица показан как изображение, а 
справа изображен как псевдотрехмерный рельеф. 


22 1 


SANRI 
PA 7 Hn 


Рис. 2.1.2. Цифровое изображение как псевдотрехмерный оельеф 


Теперь представьте себе, что вы должны. He глядя на изображение, ощупать co- 
ответствующий ему «рельеф» н постараться определить, что именно этот «рельеф» 
изображает — дом, собаку или человеческий глаз? Как показывают эксперименты, 
средний человек He в состоянин справиться с подобной задачей. Даже распознавание 
простейших геометрических фигур в подобном «рельефном» представлении будет CBA- 
зано со значительными уснлиямн H потребует сознательной выработки специального 
навыка, стратегии н алгоритмов ощупывання. Такова, несмотря на кажущуюся npo- 
стоту объекта «цифровое изображение», нстннная сложность задач компьютерного H 
машинного зрення. 


2.1.2. Алгебраические операции над изображениями. Казалось бы, мы только 
начали знакомство с нзображеннем, как с семантической сущностью н компьютерным 
типом данных. Однако уже на этом этапе мы можем рассмотреть первые операции 
цифровой обработки, которые могут применяться к изображениям в компьютере. 

Рассмотрим для начала алгебраические операции, которые осуществляются над 
цифровыми изображеннямн как над растровымн объектами (двумерныин матрицами) 
в целом. Это так называемые операции попиксельного сравнения изображений. Здесь 
предполагается, что мы ниеем два цифровых нзображения Iml н Іт2 одного типа 
н одного размера DimX x DimY. В этом случае мы MOXeM осуществить над нахо- 
дящимися B одинаковых позициях этих изображений пнкселамн Iml[z, y] и Im2(z. y] 
соответственно любые арифметическне HAH логические операции, которые в принципе 
могут быть осуществлены над двумя чнсламн. Мы можем найти их сумму: 


[m3(r, y] = Iml(r, y] + Im2[r, y], для всех т = 0,..., DimX — 1, y = 0,..., DimY - 1; 
или разность 

Im3[z, y) = Imi[r, y] – Im2(z, y], для всех г = 0,..., DimX – 1, у= 0,..., DimY - 1; 
нли побитовое «илн» 

Im3[r, y] = пах, y] OR Im2[z, y]. для всех = = 0,....DimX - 1, у= 0,..., DimY — 1; 


H так далее. 
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Изображенне Im3 того же типа н размера, сформированное в результате приме- 
нения такой попнксельной операцин, мы будем называть соответственно суммой, или 
разностью, или «побитовым или» исходных изображений Im] н Im2. 

Все алгебраические операцин, с одной стороны, крайне просты, а с другой сторо- 
ны — весьма полезны в процессе анализа нзображення. Поэтому именно с них мы 
начнем свое знакомство с обработкой изображений в системе Pisoft. 

Рассмотрим теперь различные внды цифровых изображений, с которыми прихо- 
длится сталкиваться на практике. 


2.1.3. Физическая природа изображений. С физической точки зрення большин- 
ство изображений, с которыми приходнтся сталкиваться на практнке, представляют 
собой зарегнстрированное некоторым специальным датчиком (сенсором) двумерное 
распределение интенсивности электромагнитного излучения, отраженного объек- 
TOM регистрации HIH прошедшее сквозь него. Помимо электромагннтного излучення, 
часто встречающимнся источниками нзображеннй являются акустические н ультра- 
звуковые волны, электронные пучки (в областн электронной микроскопин), а также 
различные двумерные поля дальностей и скоростей, формнруемые на основе анализа 
электромагинтных сигналов, но не содержащие непосредственно значения электромаг- 
нитных характеристик. В последние годы в области нанотехнологий возник новый 
интересный тип измерительных устройств — контактные микроскопы с молекуляр- 
ным и даже атомарным разрешением. Они также являются источниками двумерных 
информационных «измерительных» полей. 

Изображения различных днапазонов длии воли. В пределах электромагиит- 
чого спектра, в свою очередь, также выделяются отдельные диапазоны длин волн, 
8 каждом из которых изображення имеют свон физические особенности H соответ- 
венно используются в различных областях применения. В табл. 2.1.1 приведено 
условное разбиение электромагнитных волн на диапазоны. Следует иметь в виду, что 
такое деление является достаточно нечетким H приблизительным. Многие днапазоны 


Таблица 2.1.1. Днапазоны длии воли электромагинтного излучения 


Tun излучения | Длина волны (м) | Энергия фотона (эВ) 


1 106 
Гамма-излученне 105 


Рентгеновское 10-0 10* 
излучение 10-9 10? 
Ультрафиолетовое 10-8 10? 
излучение 1077 10! 
Видимый свет 


Иифракрасное 
излучение 


Микроволиовое 10-3 
излучение 10-4 
(СВЧ) 10-5 


Радиоволны 
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существенно перекрываются, H уверенно говорить о принадлежностн данного BHAA 
излучения к данному днапазону можно лишь вдалн от его границ, 

Как известно из квантовой механики, электромагнитные волны имеют двойствен- 
ное описание в виде потока частнц — квантов излучения (фотонов). Прн этом 
энергия фотона соответствует длине волны так, как это показано в табл. 2.1.1. Mo- 
скольку в большинстве современных устройств регистрация электромагнитного излу- 
чения с целью получения нзображеннй основана на том, что фотоны, попадающие Ha 
приемник изображения, своей энергней выбивают электроны, количество которых H 
определяет сиимаемый с регистрирующего элемента заряд, полезно представлять себе 
энергетическне характеристики фотонов для различных длин волн. 

Исторически нанбольшее значение для человека нмеет днапазон длни волн, вклю- 
чающий видимый свет и прилегающие к нему области. Этот участок спектра более 
подробно представлен в табл, 2.1.2. 


Таблица 2.1.2. Характеристнки воли виднмой части спектра и прилегающих к HKM 


Тип излучения Частота (x10!* Гц) 
Ближнее инфракрасное излучеине | — 101075 — | 3,0 
Красный свет максимальной длины волны B видимой 3,9 
области 

Оранжевый свет | — 641077 | 4,9 
Желтый свет 5,1 
Зеленый свет | 5,4107 | 5,6 
Голубой свет | 461077 — | 6,5 
Снинй свет минимальной длниы волны в видимой 7,5 
области 

[| — 30107 | 


Ближнее ультрафиолетовое излучение 3,0.10-7 10 


Рассмотрим теперь очень коротко. какие типы изображений различной физической 
природы используются в различных практических областях применения. 

Изображення, полученные с помощью гамма-излучения, используются в основном 
в медицинской радиологин H астрономических наблюденнях. 

Рентгеновские изображения используются в медицине, системах промышленного 
технического контроля H различных системах обеспечения безопасностн. В медицине 
активно используются два вида рентгеновских нзображений: 

е традиционные рентгенограммы, являющиеся проекцией рентгеновского излуче- 
ния, прошедшего сквозь тело пациента, на которых хорошо видно состоянне и распо- 
ложенне костей скелета, суставов н внутренинх органов человека; 

е томографические изображения, представляющие собой набор пространствен- 

ных «срезов» человеческого тела, характеризующийся гораздо более высокой четко- 
стью и точностью локализации различных органов н образований (о том, как формн- 
руются томограммы — см. следующий раздел). 
В промышленности рентгеновские нзображення используются в системах неразруша- 
ющего контроля для определения скрытых дефектов различных деталей н изделнй. В 
системах безопасности рентгеновскне изображения нспользуются в качестве детекто- 
ров различных металлических н др. предметов при входном илн выходном контроле 
в различных местах массового прохода людей и провоза товаров. Например, в аэро- 
портах, на вокзалах, в проходных предприятий н т. п. 

Цифровые рентгеновские нзображечня формируются двумя основными способами: 
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е путем оцифровки традицнонных рентгеновских пленок; 

e путем непосредственной регистрации светового нзлучения, порождаемого специ- 
альными рентгеновскими экранами, переводящимн рентгеновское излучение B CBE- 
товое. 


Ультрафиолетовые изображения используются в производственном контроле, 
мнкроскопин, лазерной технике, медицинских н астрономических наблюденнях. 

Инфракрасный диапазон, в свою очередь, обычно разбивают на два подднапазона: 
тепловой ИК-диапазон и ближний ИК. 

ИК-изображения, полученные в тепловом днапазоне (8-14 мкм), позволяют Heno- 
средственно пересчитывать HHTeHCHBHOCTb элементов изображения в значения темпе- 
ратуры наблюдаемых поверхностей. Холодные объекты на таких изображениях пред- 
стают более темными, теплые объекты — яркими, а горячие — «светящимися» (так 
как они нагревают н воздух рядом с собой). Такне нзображения нспользуются в самых 
различных областях применения: 

®в системах промышленного н экологического моннторинга, выявляющих утечки 
тепла в различных технических устройствах, сетях теплотрасс н т. п.; 

eB системах военного назначения для наведения на «горячие» объекты военной 
техники, например, двигатели, факелы ракет H T. п.; 

e в бнометрических системах, напрниер, в системах автоматического контроля до- 
ступа на основе термограмм человеческого лица, представляющих собой уникальные 
азображения, которые чрезвычайно сложно подделать, в отличие от обычных фото- 
графий в видимом днапазоне; 

и множестве других областей и приложений. 

Для получения изображений в глубоком ИК-днапазоне используются специальные 
устройства — телловизоры. Долгие годы развитие тепловизнонных систем сдержн- 
валось большими габарнтамн тепловнзоров, HX большой CTOHMOCTbIO и неудобством 
эксплуатации, связанным необходнмостью использовать для охлаждення регистриру- 
ющих матриц жидкий азот. В последние десятнлетня в этом направлении произошел 
существенный прогресс. Созданы достаточно портативные H экономичные системы 
тепловидения, не требующне охлаждения жндкнм азотом H при этом обеспечиваю- 
шие необходимое качество тепловизнонных изображений. 

Изображения, полученные в ближнем ИК-днапазоне, по большинству своих xa- 
рактернстнк схожи с изображениями видимого днапазона, однако съемка в ближнем 
ИК позволяет снимать ночью, когда света для обычной видеосъемки недостаточно. 
Таким образом, существенной областью применения изображений ближнего ИК aB- 
ляется ночное видение. Другой областью применения ИК-снстем является невидимая 
ИК -подсветка. Здесь принципиальным моментом является то, что большинство CO- 
временных видеокамер для технического зрения «вндят» в ближнем ИК-днапазоне так 
же хорошо, как H в видимом. В то же время человек He в состоянии видеть нзображе- 
uua в ИК-днапазоне. Таким образом, системы технического зрения в ИК-днапазоне 
могут специально подсвечивать Te HJIH нные элементы сцены незаметно для человека, 
яе создавая для него дискомфорта н вообще никак не проявляя своего присутствия. Во 
многих системах ночного видения (например, в системах видеонаблюдения охранного 
зазначення) используются ИК-прожекторы, увеличивающие общую ИК-освещенность 
сцены наблюдення. В технических измерительных системах на производстве, где 3a- 
застую требуется специальным образом подсветить часть детали (например, контро- 
лируемый профиль поверхности), такая структурированная подсветка также часто 
осуществляется в ближнем ИК-дкапазоне. С теми же свойствами «невидимости» для 
человеческого глаза связано н нспользование специально нанесенных ИК-элементов 
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(а также н УФ-элементов) в системах контроля подлинности денежных банкнот и 
других ценных бумаг. 

Изображения видимого диапазона используются практически во всех областях 
машинного зрения, поскольку это тот днапазон регистрации изображений, в кото- 
ром полученные изображения выглядят нанболее привычно и естественно для че- 
ловеческого глаза. Следует отметить, что в течение первых десятилетий развития 
компьютерного зрения цифровые изображения рассматривались нсключительно как 
полутоновые (halftone), то есть содержащие не цветные элементы, à квантованные 
градации серого (gray levels) — от черного до белого. В последние годы с появле- 
нием высококачественных экономичных цветных цифровых фотоаппаратов н вндео- 
камер цифровое изображение по умолчанию все чаще рассматривается как цветное, 
имеющее в каждом пикселе три цветовые компоненты. Как известно, любой про- 
извольный цвет может быть получен путем смешения (линейного суммирования C 
различными весами) трех различных чистых цветов. Традиционное представление 
цветных изображений в компьютере основано на цветовой тройке RGB (red, green, 
blue — красный, синий, зеленый). На этапе анализа цветных изображений часто 
осуществляется переход к другим цветовым пространствам, например, HSI (цвет, na- 
сыщенность, интенсивность). Более подробно об этом будет рассказано в отдельном 
разделе, посвященном обработке цветных изображений. 

Микроволновые изображения применяются в областн радиолокации. Излучатель 
раднолокатора постоянно (вариант — нмульсно) испускает электромагнитное нзлуче- 
нне, отражение которого от различных объектов затем регистрирует антенна радно- 
локатора. В связи с тем, что антенна радиолокатора — сложный раднотехнический 
прибор, мало похожий на матрицу траднционного приемника изображения, panko- 
локационные изображения нмеют более сложную н необычную геометрию, которая, 
впрочем, может быть преобразована к традиционной путем специальной математн- 
ческой обработки. Раднолокационные изображения характеризуются, как правило, 
высоким контрастом и могут служить для быстрого автоматического выделения объ- 
ектов, присутствующих в поле зрення радиолокационной системы. В то же время 
особениостью радколокацконного изображения реальной сцены является отсутствие 
на нем объектов, слабо отражающих волны микроволнового диапазона. Существен- 
ным достоинством радиолокационных изображений является то, что они могут быть 
получены на больших расстояниях, на которых четкость оптической съемки теряется 
из-за рассеяння света в атмосфере. Более того, микроволновое излучение способно 
проникать даже сквозь облака, растительный покров, лед и сухой песок. Все это 
делает микроволновую съемку чрезвычайно привлекательной для применений в во- 
енной области, а также в области глобального мониторинга Земли из космоса H с 
авнацнонных носнтелей. 

Радиоволновые изображения пренмущественно используются в медицине н аст- 
рономин. Достаточно сказать о TOM, что нанболее современный метод получения Me- 
дицинских томографических изображений высокого разрешення — ЯМР (ядерный 
магнитный резонанс) основан на регистрации радноволновых сигналов клеток чело- 
веческого тела, помещенных в сильное магнитное поле н возбуждаемых короткимн 
волновыми импульсамн в радноднапазоне. 

Изображеиня различной физической природы. Акустические изображения ак- 
тивно непользуются в геологии, промышленности н медицине. Ультразвуковые изоб- 
ражения применяются во множестве областей промышленностн H техники, но нанбо- 
лее известно HX применение в медицине — для получения внутриматочных изображе- 
ний человеческого плода в утробе матери, а также для быстрой инспекции патологий 
различных внутренних органов человека. Следует отметить, что медицинское ультра- 
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звуковое изображенне содержит не просто интенсивность отраженного ультразвуко- 
вого сигнала, аеще н дальность до отражающей поверхности, вычисленную на основе 
расчета скорости распространения ультразвукового сигнала в человеческих тканях. 

Двумерные поля дальностей формируются на основе анализа электромагнитных 
игналов, нспускаемых и принимаемых по локацнонной схеме. В качестве таких даль- 
нометрических систем в последние годы все чаще используются лазерные локато- 
2ы. позволяющие осуществлять оптическое сканирование трехмерных поверхностей 
< больших расстояний (до десятков километров), обеспечивая при этом максималь- 
зо возможное разрешение. Так же, как и в случае ультразвуковых картин, даль- 
нометрический локатор сканирует поверхность, нспуская серин коротких волновых 
импульсов, отражения которых от поверхностн объекта регистрируются прнемннком 
локатора, после чего рассчитывается время прохождения импульса до объекта н 06- 
2aTHo, откуда окончательно определяется дальность до точки поверхностн объекта. 
Получаемое изображение называется в таком случае картой глубин н содержит Heno: 
<әедственные значення расстояний от локатора до точек поверхности объекта — то 
exTb непосредственно нзмеренный трехмерный рельеф данной поверхностн. Двумер- 
ные поля дальностей находят широкое применение в области картографни, дистан- 
2нонного зондирования Земли, техинческих измерений и технического коитроля в 
промышленностн H во многих других областях. 

Двумерные поля скоростей формируются аналогичным образом — за счет излу- 
чения H приема волновых импульсов. Однако пикселы таких изображений содержат 
уже не значения расстояний до соответствующих точек, а значення скоростей двн- 
ження этих точек отражающей поверхности. Вычисление скоростных характеристик 
хуществляется за счет анализа доплеровского сдвига отраженного сигнала. В та- 
&2M случае говорят, что локационное изображение нмеет смысл карты скоростей, 
а локатор работает в режиме СДЦ (селекции движущихся целей). Двумерные поля 
гхоростей используются в системах различного назначения преимущественно в целях 
зыделения движущихся объектов. 


Рис. 2.1.3. Пример многоспектральных изображений. Показаны изображения городской ссены в TB- 
4 вух ИК-диапазонах (3-5 и 8-14 мкм) 


В заключение данного краткого обзора изображений различной физической npu: 
Dlh необходимо отметить, что многие современные системы зрения основаны He на 
гзализе изображений одного типа, а на комплексировании (fusion) двумерных nan- 
ных. получаемых в различных днапазонах длин волн, а также данных, получаемых 
217 устройств, основанных на различных физических принципах. В частности, в обла- 
ITH исследований Земли нз космоса стандартом стала мультиспектралькая съемка 
‚съемка Земной поверхности одновременно в нескольких днапазонах видимого света 
е ближнего ИК). Получаемые в результате многозональные изображения, каждый 
-иксел которых имеет целый вектор значений, полученных в близких, HO отлнчаю- 
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щихся спектральных диапазонах, позволяют с высокой надежностью автоматнческн 
выделять на этих изображениях области растительностн разного вида, различные TH- 
пы почв H T. A. и т.п. В последние годы речь идет уже не o многозональной, а о 
гиперспектральной съемке, при которой задействуются уже не несколько, а десятки 
н даже сотнн близко расположенных узких волновых днапазонов. С другой стороны, 
комбинирование источников изображений различной физической природы позволяет 
удачно «поделить» между ними функцин единой системы машинного зрения. Напри- 
мер, робототехническая система, объединяющая установленные на единой платформе 
телекамеру высокого разрешения, тепловизор M локатор B режнме СДЦ имеет воз- 
можность быстро автоматически выделить в поле зрения только теплые движущиеся 
объекты. после чего внимательнее рассмотреть н проанализировать их форму н ха- 
рактеристики на детальном нзображенин видимого днапазона. 


2.1.4. Тип пиксела. Рассмотрим теперь растровое цифровое нзображенне как 
чистую структуру данных, абстрагировавшись от всего, что было изложено выше н 
касалось физических особенностей н способов нх получения. Поскольку с геомет- 
рической (и программной) точкн зрения структура любого изображения совершенно 
стандартна и представляет собой регулярный двумерный массив (матрицу) пикселов, 
различные типы изображений могут порождаться только оригинальным типом дан- 
ных, представляющим пиксел. 

В табл. 2.1.3 сведены основные варнанты структур двумерных растровых данных 
различного типа. 

По типу данных изображения делятся на битовые (булевские, логические), байто- 
вые (со знаком H без знака), целочисленные (со знаком и без знака), действительные 
(с фиксированной н плавающей точкой), цветные (специальный тип данных) н Bek- 
торные (пиксел представляет собой массив или список численных значений). 

В семантическом плане об этих типах изображений можно вкратце сказать следу- 
ющее. 

e Бинарные изображения (битовые, булевскне, логические). 0 обозначает пиксел 
«фона», | — пиксел «объекта», «символа» (или наоборот — зависит от знака контра- 
ста объект/фон). В качестве нсходного бинарное изображение формирует только один 
тип устройств ввода — оптический сканер в режиме сканирования текстовых докумен- 
тов. В качестве промежуточных H окончательных результатов обработки изображения 
такого тнпа широко используются в задачах обнаружения объектов, задачах морфо- 
метрических измерений. системах автоматического считывания текста H штриховых 
кодов. 

e Полутоновые изображения стандартного разрешения (байтовые без знака). 
На сегодня разрешение 8 бит (диапазон значений [0...255| — 256 градаций серого) — 
фактический стандарт для систем видеоввода, способных работать в реальном вре- 
мени — фреймграбберов H цифровых видеокамер для технического зрения H систем 
вндеонаблюдення. Это самый распространенный формат входных полутоновых дан- 
ных. Соотзетственно, в том же формате представляются н результаты фнльтраинн 
полутоновых изображений. Снстемный тип данных TBitmap поддерживается ollepa- 
ционной снстемой Windows как часть графического нитерфейса на системном уровне. 

e Результаты обработки полутоновых изображений, в которых возможны от- 
рицательные значения пикселов (байтовые со знаком). Короткое целое со знаком 
используется для представления промежуточных результатов обработки в целях эко- 
номни используемого объема памяти. Длинное целое со знаком стандартной H двой- 
ной длины используется при реалнзацин всех возможных целочисленных операций 
над изображениями (например, накопления разнообразных суми и разностей) в слу- 
чае, еслн нет необходнмостн B спецнальном ограничении потребных объемов TANA- 
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ти. Действительные значения пикселов используются при реализации различных 
чецелочисленных операций и преобразований над нзображенняии. В случае, если 
требуется ограничить объем задействованной памяти HJIH увеличить быстродействие 
алгоритмов, вместо представлений с плавающей точкой используются представления 
действительных чисел с фиксированной точкой. 


Таблица 2.1.3. Изображения с различиым типом пиксела 


Тип пиксела Яркостиое разрешение Семантический смысл 
(диапазон) 
Bit (Boolean) Бинариое изображение. 
O — «dou», | — «объект» 
Byte (char, [0...255), [-128... 127] Полутоновое изображение 
shertint) стандартного яркостиого 
разрешения — со знаком и 
без знака 
Integer Полутоновое — изображенне 
(word, int) повышенного яркостного 
разрешения — со знаком 


и без знака. Меточиые 
изображения 


Полутоиовое изображенне 


Long 
(double word, высокого яркостного разре- 


long int) шения — со зизком и без 
знака 

RGB СИИ Цветное изображение. Раз- 

(TColerRet) 0,0.0.0)...(255,255,255.255)] | решение 8 бит на цветовой 
капал. С выравниванием и 
без 

Real (lixed, ** (зависит от реализации) Действительисзнгчиое изоб- 

fioat, double) ражение. Результат обработ- 
ки 

Complex **(saBHcHT от реализации) Комплексное изображе- 
ние. Результат перехода в 
частотную область 

Vector ** (зависит от реализации) Векторное изображение, 

(array of...) Мниогозональные ин ги- 


перспектральные даниые. 
Результаты комплексирова- 
ния. Результаты вычисления 
множественных признаков 


e Лолутоновые изображения повышенного разрешения (целочисленные без зна: 
ка). Используются в тех случаях, когда диапазон в 256 градаций серого не поз- 
воляет отразить все богатство исходной информацни, предоставляемое датчиком B 
силу его физической природы. Takum образом оцифровываются, в частности, медн- 
аинские рентгеновские H томографическне изображения, а также астрономические H 
технические нзображення, полученные в результате длительных экспозиций. Многие 
слециализированные медицинские и технические устройства формнруют на выходе 
азображення с яркостным разрешеннем в 10 илн 12 бит, однако в компьютерных 
системах обработки такие данные удобно дополнять до «целого слова» в 16 бит, с ко- 
торым проще H быстрее оперируют современные 16-, 32- н 64-битные вычислительные 
архитектуры. 
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e Меточные изображения (целочисленные без знака стандартной или двойной 
длины). Используются при автоматическом выделении связных областей и объектов. 
Каждый пнксел такого изображения помечен номером области, которой он принад- 
лежит. Байтовые изображення здесь не подходят, так как в них можно закодировать 
только 255 различных областей, а на нзображеннях высокого разрешения MX могут 
оказаться десятки и даже сотни тысяч; 

e Двумерные частотные характеристики — комплексные изображення, состоя- 
щие из действительной и мнимой частн. Формируются в результате двумерного npe- 
образования Фурье, быстрого преобразования Фурье (БПФ), двумерного косннусного 
преобразования (ДКП) и т. п. преобразований изображения из пространственной 06- 
ластн в частотную. На программном уровне, как правило, реализуются не как двумер- 
ный массив комплексных чисел (двухкомпонентных векторов), а как пара двумерных 
массивов (изображений), один из которых представляет действительную часть образа, 
а второй — мнимую. 

e Цветные изображения — специальный тип данных, запись формата ТСоюгВе!= 
={Ве4, Green, Blue). Разрешение по каждому нз каналов — 8 бит. С целью выравнива- 
ния до «целого слова» 32-битной архитектуры часто дополняется еще одним 8-бктным 
компонентом: TColorRef32-(Red, Green, Blue, Reserved). Цветное нзображение — cH- 
стеиный тнп данных. Он поддерживается всемн устройствами ввода цветовых изоб- 
ражений. Кроме того, стандартный тип данных TRGBBitmap поддерживается опера- 
ционной системой Windows как часть графического интерфейса на системном уровне. 

e Многозональные и гиперспектральные изображения — векторные, пиксел пред- 
ставляет собой массив целочисленных значений. Формнруются специальными устрой- 
ствами ввода. Используются для попиксельной классификации и сегментации изобра- 
жений. На программном уровне, как правило, реализуются не как двумерный массив 
векторов, а как набор двумерных изображений, каждое из которых соответствует 
одной зональной илк спектральной компоненте. 

• Признаковые изображения — скалярные или векторные, пиксел представляет 
собой скаляр, массив или список действительных значений. Представляют собой pe- 
зультат признакового аналнза изображений. Используются для попиксельной клас- 
сификации н сегментации изображений. На программном уровне, как правило, pea- 
лизуются не как двумерный массив векторов, а как набор двумерных изображений, 
каждое из которых соответствует одному тнпу признаков. 


2.2. Устройства оцифровки и ввода изображений 


В самом общем виде для получения электронного изображения могут нспользоваться: 
e одиночный чувствительный элемент; 
® одномерная линейка чувствительных элементов; 
® двумерная матрица чувствительных элементов. 


2.2.1. Линейки n матрицы, сканеры и камеры. Простейшим фоточувствитель- 
ным электронным элементом является всем известный фотодиод. Он стронтся на 
базе полупроводника (например. кремния) и создает выходное напряжение, пропор- 
цнональное освещенности его открытой поверхностн. Если перед восприннмающей 
поверхностью фотоднода установить фильтр, пропускающий волны только определен- 
ного дкапазона, можно получить приемник изображения. чувствительный в заданном 
днапазоне электромагнитного спектра. 

На основе пары фотоднод — светоднод (светонзлучающий элемент) построены 
широко применяемые в TexHHke детекторы пересечения, позволяющие определить, 
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пересек лк какой-нибудь непрозрачный объект прямую линню, соединяющую нсточ- 
ник H TIDHeMHHK света. Такне детекторы стоят, например, B турникетах на входе B 
московское метро. 

Однако для того, чтобы при помощи однночного фотодкода получить изображенне, 
необходнмо, во-первых, создать оптическую систему, проецнрующую нзображенне 
определенных участков видимой сцены на поверхность фотоприемника, а во-вторых, 
организовать сканирование изображения сцены за счет перемещения фотоприемника 
относительно регнстрируемой сцены. В самом деле, одиночный фоточувствительный 
элемент без оптической системы способен лишь зарегистрировать уровень освещен- 
ности своей поверхностн. При этом свет, падающий на его поверхность, приходит 
со всех сторон, в результате нзлучення многих нсточинков, отраження от множества 
различных поверхностей н, кроме того, рассеяння в воздухе. Нельзя сказать, что за- 
регистрированный на фотоэлементе уровень освещенностн относится к какому-либо 
конкретному участку поверхности или объекту сцены. Для того чтобы такое соответ- 
ствие можно было установить, необходимо использовать, например, систему линз, 
называемую также объективом, которая сфокуснрует н передаст на поверхность фо- 
топрнемника лучи, приходящие строго с выбранного направлення н с определенного 
диапазона расстояний (определяемого фокусным расстоянием объектива). Если do- 
тоэлемент расположен за объективом, то действительно можно говорить о том, что за- 
регистрированное нм значение освещенностн соответствует определенному простран- 
ственному лучу, проходящему через точку фокуса (пересечения лучей) объектива. 
Осталось только организовать «сканирование» — то есть перемещение регистрирую- 
шего луча по сцене, чтобы появилась возможность заполнить двумерную матрицу нн- 
тенсивностей н получить, такнм образом, цифровое изображение наблюдаемой сцены. 
В первых нсторических системах регистрации изображений съем изображения осу- 
шествлялся за счет механического сканирования, то есть перемещення фотоэлемента 
(HAH сканируемого объекта относительно фотоэлемента) «вправо-влево, BBepX-BHH3». 
Впоследствин былк разработаны более современные схемы оптико-механического 
сканирования (нашедшие основное применение в лазерных системах), в которых ABH- 
жется не фотоприемник, а сам луч, отклоняемый управляемым зеркалом, входящим 
в состав оптической системы. 

Следуюшним распространенным типом прнемников изображения являются оптиче- 
ские сканеры, основанные на использовании одномерных линеек фоточувствительных 
элементов. К ним, в частностн, относятся хорошо известные планшетные сканеры, 
предназначенные для оцифровкн бумажных документов. В такнх системах сканируе- 
мый документ помещается Hà неподвижное плоское основание, а затем над HHM (или 
лод ним — B 34BHCHMOCTH OT конструкцни сканера) медленно «проезжает» параллель- 
но перемещающаяся сканирующая лннейка фоточувствнтельных элементов, которая 
«строка за строкой» (или «столбец за столбцом») снимает н сохраняет в памятн циф- 
ровое изображение документа. Перемещение сканирующей лннейки осуществляется 
за счет работы шагового электрического двигателя. За каждый шаг лннейка сме- 
шается на очень небольшую величину сдвига, так как между соседкимн линиямн 
изображения не может большого расстояння. 

Возможна н обратная схема сканирования (реализованная, например, в ряде копн- 
ровальных аппаратов), когда линейка фотоприемников покоится, а в движение приво- 
лится кассета со сканируемым документом. Но н в этом случае механическое двнже- 
ние документа относительно линейки должно быть достаточно медленным и преци- 
знонно равномерным, иначе полученное изображение будет иметь низкое разрешение 
а серьезные геометрические нскаження в направлении сканинровання. 


46 ЦИФРОВЫЕ ИЗОБРАЖЕНИЯ ГЛ. 2 


Указанная проблема ограничивает применение оптических сканеров на базе сканн- 
рующих линеек в тех областях, где требуется не постепенное скаинрование, а быстрая 
мгновенная съемка видонзменяющихся динамических сцен. Однако это не означает, 
что область применения линейных приемников изображения ограничена только обла- 
стью сканирования документов. Напротив, линейные камеры парадоксальным обра- 
зом находят применение HMeHHO в тех областях техники, где требуется максимально 
быстрая регистрация изображений высокого разрешения. Речь идет о так называе- 
мых системах «естественного сканирования» нзображений за счет движения объектов 
съемки. Представьте себе, например, задачу получения высококачественного H30Ópa- 
жения быстро движущейся конвейерной ленты, на которой расположены подлежащие 
автоматической инспекции HJIH автоматической сортировке детали. Допустни, необхо- 
димое разрешение съемки по одной из координат — 1024 элемента. Конечно, мы могли 
бы попробовать нспользовать двумерную матрнцу размером 1024 x 1024 элемента, но 
при попытке передать в компьютер снятые этой матрицей мегабайтные (использует- 
ся также термин мегапиксельные) изображения в темпе, согласованном по скоростн 
с движением ленты конвейера, мы обнаружим, что пропускная способность канала 
передачи цифровых данных (да н характеристики скорости съемки, обеспечиваемые 
цифровой камерой высокого разрешения) не позволит нам это сделать. Между тем, 
установив над конвейером линейную камеру, передающую лишь одну строку из 1024 
значений пикселов за один такт, мы легко сможем обеспечить необходимые скорость H 
качество съемки. Сканирование же (то есть развертка изображения во времени в HA- 
правлении, перпендикулярном линейке фотоэлементов) будет осуществляться за счет 
движения самой конвейерной ленты. Аналогичным образом на базе линейной каме- 
ры можно построить, например, систему контроля качества покрытия автомобильных 
дорог, осуществляющую сканирование дороги под автомобнлем-лабораторней, обору- 
дованным такой камерой, за счет движения самого автомобнля. Самолет, с посто- 
янной скоростью летящий над сканируемой местностью, также позволяет сформиро- 
вать нзображение местности при помощи линейной камеры. Наконец, искусственный 
спутник, предназначенный для дистанционного зондирования Земли из космоса, так- 
же может сканировать земную поверхность за счет собственного перемещения по 
орбите. 

И, тем не менее, в подавляющем большинстве современных систем технического 
н машинного зрения используются двумерные приемники изображений. Их досто- 
HHCTBO заключается в уннверсальностн. Они не имеют ограничения на скорость или 
направление изменения содержання наблюдаемой сцены, поскольку регистрация со- 
держимого всех пикселов двумерного изображения происходит в таких системах ON- 
новременно. Нанболее распространенным в настоящее время типом двумерных прн- 
емннков изображений являются ССО-матрицы (ПЗС-матрицы, «приборы с зарядо- 
вой связью»). В отличие от фотоднодов, выходной сигнал чувствительных элементов 
такой матрицы пропорционален не текущей освещенности поверхности элемента, à 
интегралу энергин нзлучення, попавшего на элемент за все время экспозиции (то 
есть за время, пока элемент был открыт). Это позволяет, как н в аналоговой фо- 
тографин, управлять чувствительностью элементов путем установки времени экспо- 
зиции, использовать накопление сигнала и другие подобные приемы. В настоящее 
время ССЮ-матркцы выпускаются производителями в виде готовых микросхем, KO- 
торые производители камер H сканеров могут непосредственно устанавливать B свон 
устройства. Именно ССО-матрицы служат пркемникамн изображения как в современ- 
ных бытовых фото- н видеокамерах, так н в вндеокамерах для технического зрення, 
применяемых в самых ответственных промышленных прнложеннях. Заметим также, 
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что в современных линейных камерах также используются не линейки фотоднодов, а 
ССО-линейкн. 


2.2.2. Геометрия изображения. Естественно, конструкция приемника H30Ópa- 
ження н способ организации сканирования напрямую влняет на его внутреннюю 
геометрию. 

Наиболее распространенной является центральная проективная геометрия 
снимка, характерная для фотоаппаратов н видеокамер с матричнымн прнемннкамн 
н объективами на базе сферических линз. Геометрия таких изображений будет no- 
дробно рассмотрена в разделе 7.3. 

Другим типом внутренней геометрин является осевая проективная геометрия, 
характерная для устройств со щелевым скаинрованнем. 

Встречаются н еще более сложные случан внутренней геометрии съемкн. Hanpu- 
мер, цилиндрическая геометрия некоторых космических фотоаппаратов, проециру- 
ющих изображение не на плоскость, а на цилиндрическую поверхность. Геометрия 
радиолокационной съемки определяется устройством антенны H может быть весьма 
сложной н нелинейной, Геометрия изображения, полученного от лазерного локатора, 
определяется алгорнтмом развертки управляющей зеркальной системы. 

Во всех случаях, если перед намн стонт задача измерения н контроля какнх-лнбо 
элементов сцены илн взанмной геометрической привязкн элементов изображений раз- 
личных типов, помимо заранее известной общей геометрической модели приемников 
нзображений подобного типа мы должны также с максимально возможной точностью 
знать значения всех параметров этой модели применительно к данному конкретному 
экземпляру приемника. Дело в том, что никакне технические изделия не являются 
ндеальными. Поэтому, приобретая y производнтеля объектив для видеокамеры с 3a- 
явленным фокусным расстоянием, например, 12 мм, мы не можем быть уверены, что 
фокусное расстояние данного объектива действительно ровно 12MM, а не 12.1 или 
11.9. Другне параметры геометрии съемки (например, положенне центра снимка, 
через который проходнт оптическая ось съемкн) также требуют оценки н уточнения 
до того, как мы сможем использовать геометрическую ннформацию, полученную от 
данной камеры в нзмернтельных целях. Более того, на практике ни одна сферическая 
линза не является B точностн сферической. Любой объектив HMeeT так называемые 
дисторсии, то есть искажения, отклонения от ндеальной геометрин. Аналогичным 
образом H движение линейки оптического сканера никогда не является идеально Na- 
раллельным, плавным H равномерным, В связи с этни H сканерное изображение имеет 
не только оптическую геометрню сканирующей системы, HO и свон дисторсин H HC- 
каження внутренней reoMeTpHH нзображення. 

Отсюда вытекает необходимость проведення математической калибровки н ком- 
пенсацин дисторснй для любых практически используемых в технических системах 
камер H сканеров. Процедуры такой калибровки для камер с центральнопроективной 
геометрней будут также рассмотрены в главе 7. К сожалению, оптические системы 
многнх дешевых бытовых устройств ввода изображений столь несовершенны, что да- 
же математическая калибровка не B состоянин придать нм метрические свойства. Это 
относится, в частности, к большинству USB-kaMep и цифровых камер, встроенных B 
сотовые телефоны. 


2.2.3. Цифровые и аналоговые устройства. Говоря о существенных характерн- 
стиках приемников изображений, необходимо упомянуть о том, что выходной сигнал 
устройства, непосредственно регистрирующего изображение, может быть цифровым 
или аналоговым. 
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Аналоговый видеосигнал формируется аналоговыми видеокамерами unu видео- 
магнитофонами. Как правило, в этом плане вы можете столкнуться со стандартными 
видеосигналамн в формате PAL, SECAM илн NTSC. Для того чтобы ввести аналого- 
вый видеосигнал в компьютер в винде цифрового изображения илн последовательностн 
цифровых изображений, необходимо нспользовать специальное дополнительное 060- 
рудованне — устройство видеоввода, нлн фреймграббер. Фреймграббер представ- 
ляет собой аналогово- цифровой преобразователь и одновременно декодер формата 
изображения, который позволяет непосредственно подключить на вход видеосигнал 
от аналоговой камеры, телевизионной антенны или видеомагнитофона, после чего 
данные в цифровом формате начннают поступать в компьютер по шине данных (на- 
пример, по шине PCI, если это встроенная плата видеоввода с РСІ-разъемом), либо 
через Один из внешних портов, если это внешний фреймграббер, выполненный в виде 
отдельного устройства. В современных технических системах, как правило, нспользу- 
ются встроенные фреймграбберы, обеспечивающие более высокую скорость передачн 
данных. Большинство современных фреймграбберов позволяют осуществлять оциф- 
ровку аналоговых сигналов всех стандартных типов, однако, контроль за тем, чтобы 
выбранные параметры оцифровки соответствовали характеристикам оцифровываемого 
сигнала, в большинстве случаев ложится на пользователя. 

Цифровые камеры, цифровые фотоаппараты н цифровые сканеры сразу фор- 
мируют изображение в цифровом виде таким образом, что оно может быть введено 
в компьютер через тот или другой стандартный канал для ввода цифровых данных. 
Еще несколько лет назад для цифрового обмена данными большинство устройств нс- 
пользовалн такие порты: последовательный порт (serial pori), параллельный порт 
(parallel port) u порт RS-232/464. Это были достаточно «узкие» каналы, существенно 
ограничивавшие скорость передачи цифровых видеоданных Практнчески о передаче 
по ним видеоданных в реальном масштабе времени не могло быть и речн. На сего- 
дня нанболее распространенным интерфейсом, нспользуемым в бытовых устройствах 
видеоввода, является Universal Serial Bus (USB). Первая версия этого порта obecne- 
чивала невысокую пропускную способность канала, в связн с чем для промышленных 
приложений в основном использовались другне специализнрованные порты/протоко- 
лы: [EEE 1394 (FireWire) и Camera Link. Однако новый стандарт USB-2 вплотную 
приблизил технологию USB к потребностям профессиональных разработчиков, B pe- 
зультате чего стали появляться и професснональные промышленные системы, OpH- 
ентированные на ввод по USB-xauany. Камеры для видеонаблюдения (ІР-камеры) в 
качестве канала передачи видео по сетн используют Ethernet. Теперь уже и многие 
камеры для технического зрения используют Gigabit Ethernet в качестве основного 
канала вывода информации. Таким образом, в настоящее время в промышленных CH- 
стемах технического зрення могут использоваться все упомянутые типы цифровых 
каналов ввода. Выбор конкретного канала определяется на этапе проектнровання CH- 
стемы в зависимости от особенностей каждой конкретной задачи. 


2.2.4. Пространственное разрешение. Важной характеристикой любого устрой- 
ства ввода изображения является его разрешение. Различают яркостное разрешение 
(0 котором речь, в частности, пойдет в следующем разделе) и пространственное раз- 
решение. В свою очередь, о пространственном разрешенни говорят в двух основных 
смыслах — как о собственной характеристике устройства ввода H как о характеристн- 
ке съемки данным устройством реального объектного пространства (пространства 
сцены). 

Собственное разрешение камеры илн сканера — это количество элементов изоб- 
раження на кадр, которое данное устройство может обеспечить. 
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О собственном разрешенни аналоговых видеокамер обычно говорят в термннах 
телевизнонных линий (ТВЛ). При этом счнтается, что разрешение ниже 200 ТВЛ 
является «низким», разрешение порядка 400-500 ТВЛ — «среднее», а разрешение в 
600-800 ТВЛ u выше — высокое. 

Собственное разрешение цифрового фотоаппарата оценивается в мегапикселах 
(Мпикс) — количестве пикселов цветного изображения максимального размера, Ko- 
торое в состоянин сформнровать данный фотоаппарат. На сегодняшний день разреше- 
ние ниже | Мпикс считается «низкни», разрешение порядка 3-5 Мпнкс — «средним», 
а разрешение выше 10 Мпикс — «высоким». 

Собственное разрешение цифровых видеокамер н фрейиграбберов определяется 
размером выходного нзображення в пикселах. Разрешение ниже 320 x 200 считает- 
ся «низким», разрешение порядка (640 x 480) + (576 x 768) считается «средним», а 
разрешение более 1024 x 1024 — «высоким». 

Собственное разрешенне оптического сканера на основе сканирующей линейки 
характеризуется количеством элементов линейкн. 

Следует сразу заметить, что качественные оценки «низкого» или «высокого» раз- 
решения по Ходу развнтня современной TeXHHKH постоянно подвергаются пересмотру 
в сторону увеличения пороговых значений. Лишь несколько лет назад стандарт УСА 
640 x 480 считался эталоном «высокого» разрешения. Поэтому данные качественные 
градации можно использовать только в качестве самых приблизительных OpHeHTH- 
ров. На практике, при выборе оборудования видеоввода для построення той илн иной 
аппаратно-программной системы машинного зрення выбор типа камеры илн сканера 
осуществляется, как правнло, на основе требований не к собственному, а к внешнему 
пространственному разрешению. 

Внешнее пространственное разрешение по своему смыслу характеризует размер 
мельчайших деталей реальной сцены, которые можно различить на нзображеннн. 

Траднционно для характеристнки пространственного разрешения аналоговых Te- 
левизнонных систем применялся критерий количества пар различимых линий. Име- 
ется в внду следующий тестовый эксперимент. Пусть имеется тестовое изображение 
‘таблица, test field), состоящее нз вертикальных линий шнриной W, разделенных npo- 
межуткамн толщнной также W. В такой таблице ширина пары близко расположенных 
лнннй будет 2W, н на некоторой еднннце длинны разместнтся соответственно 1/(2W) 
такнх nap линнй. В этом смысле говорят, что данное устройство обеспечивает, Ha- 
пример, 100 различимых пар лнний на метр (сантиметр, мнллиметр, ...) объектного 
пространства. 

Для цифровых фотоаппаратов, цифровых видеокамер н фреймграбберов удобнее 
использовать такую характеристнку внешнего разрешення, как цена пиксела, MH 
пиксельное разрешение. Допустнм, собственное разрешение камеры по горизонтали 
составляет 640 пикселов. Пусть при этом производнтся съемка некоторой областн 
объектного пространства, горизонтальный размер которой составляет (на стандартной 
дальности съемкн) порядка 6,4 метра. Тогда внешнее пространственное разрешение 
одного пиксела в горизонтальном направленин составит, соответственно, 6, 4м/640 = 
= 0.01м = 1см. 

Для оптнческнх сканеров, предназначенных для сканнровання документов, нсто- 
энческн утвердилась такая характеристика внешнего разрешения, как DPI (dots per 
inch) — колнчество отсканированных точек на дюйм расстояння. Если внешнее раз- 
решение камер н фотоаппаратов нельзя охарактеризовать как заведомо низкое нлн 
высокое, поскольку такая оценка 38BHCHT от оптикн (при замене объектива на объек- 
тив с другим фокусным расстояннем внешнее разрешение системы сразу нзменяется) 
и требований данной конкретной задачи (большая нли меньшая точность измерений 
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нам нужна), то для сканерной характернстики ОРГ такие качественные оценки суще- 
ствуют. OHH связаны с требованиями систем автоматнческого распознавания текстов, 
а также с требованнямн издательских снстем к растровым нзображенням, отска- 
нированным для печатн. Счнтается, что разрешение ниже 300 dpi — это «низкое» 
разрешение, порядка 600 dpi — «нормальное» или «среднее» разрешение, а свыше 
1200 dpi — «высокое» разрешение. Часто пронзводителн оптнческнх сканеров указы: 
вают для свонх продуктов сразу две характернстнкн разрешения — «физическое» н 
«математическое» разрешение, прнчем «математическое» разрешение как минимум в 
два раза выше физического. Это объясняется тем, что в аппаратное нлн программное 
обеспеченне сканера зашнвается алгорнти межпнксельной ннтерполяцин нзображе- 
ння, позволяющий создавать иллюзню более высокого разрешення, чем физическн 
позволяет достигать количество элементов сканирующей лннейкн. На самом деле 
прн выборе сканера для вашей конкретной задачн всегда следует опнраться только на 
указанное «физическое» разрешение устройства. 

Маленькое методнческое замечание в заключение параграфа о разрешении. Toye- 
му и в каком смысле размер цифрового изображения является мерой его разрешения. 
если мы не знаем и не можем знать заранее, каково будет внешнее разрешение, по- 
лученное в дальнейшем «на местности»? Виднмо, дело в TOM, что, опнраясь на знание 
размера изображения DimX x DimY, мы все-таки можем апрнорн сказать, что разре- 
шенне на местностн составит соответственно LX/DimX н LY/DimY, где LX x LY — 
размер поля зрения камеры в объектном пространстве. To есть разрешение цнфрового 
нзображення в пнкселах обусловлнвает макснмально возможное внешнее разрешение 
в относительных единицах — долях максимального размера регистрнруемого объ- 
екта. 


2.2.5. Программное обеспечение. Последним существенным компонентом CH- 
стемы ввода, позволяющим пользователю получить доступ к изображению H его MHK- 
селам в цифровом виде непосредственно в своей программе анализа н обработки нзоб- 
ражений, является соответствующее программное обеспечение, поставляемое разра- 
ботчикамн устройств ввода илн программных пакетов для работы с нзображеннямн. 
В состав такого ПО обычно входят: 

e драйвер — спецнальная библнотека для связи с устройством «Hà HH3KOM уровне»; 

ө библнотека стандартных функций «высокого уровня» для организацнн простого 
н удобного ннтерфейса с драйвером. 

Как правнло, драйверы устройств ввода (камер, сканеров и фреймграбберов) no- 
ставляют HX производители, н они сразу входят в стандартный комплект поставки. 
Обратите вннманне на то, что для каждой операционной снстемы требуется специаль- 
ный тип драйвера, совместниый нменно с данной ОС. Практически все современные 
снстемы вндеоввода подключаются к персональным компьютерам как устройства тнпа 
plug-and-play. То есть после физического подключения устройства н (еслн необходн- 
мо) перезагрузки компьютера операционная система должна самостоятельно опреде- 
лнть факт налнчня нового устройства H сама ннсталлнровать необходнмые для дан- 
ного устройства драйверы. Если нужного драйвера под рукой все-таки не оказалось 
(обычно это происходнт в тех случаях, когда оборудование было выпущено рань- 
ше, чем данная операцнонная система). его почти всегда можно бесплатно скачать с 
веб-сайта пронзводителя. 

Для самостоятельного программирования блока вндеоввода в системах компьютер- 
ного зрения н общення на «высоком уровне» C современнымн устройствамн видеовво- 
да под операционной снстемой Windows существуют стандартные протоколы обмена 
данными. В частностн, для потокового вндеоввода с видеокамер н фреймграбберов 
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нспользуются протокол Video for Windows (VFW) н технология DirectShow (DS), a 
для взанмодействия C оптическими сканерами — так называемый протокол TWAIN. 


2.3. Форматы хранения и передачи цифровых изображений 


В предыдущем разделе мы говорили о том, что с точки зрения абстрактной струк- 
туры данных все изображения представляют собой регулярные двумерные массивы H 
различаются только тнпом пиксела. В то же время всем известно, что в настоящее 
время в мнре широко нспользуется несколько десятков различных форматов файлов 
для хранення н передачн растровых цифровых нзображеннй. Чем же объясняется 
такое разнообразие файлового представлення достаточно универсальной структуры 
данных? Здесь можно выделить следующие трн основные причины использования 
различных форматов. 

e Разнообразие сопроводительной информации. В самом деле, кроме непосред- 
ственно самого массива пикселов в файле изображения необходимо храннть еще как 
минимум размеры DimX к DimY, а также onucaHHe структуры пиксела с указанн- 
ем его типа н битностн. Обычно такая информация хранится в самом начале файла 
изображения, до масснва данных. Однако этнм далеко He нсчерпывается вся сопро- 
воднтельная информация, которую может оказаться полезным хранить вместе с изоб- 
раженнем. Важно знать, напрнмер, пространственное разрешение нзображення, еслн 
оно известно (для сканерных изображений разрешенне dpi нзвестно всегда). Еслн 
цветное нзображенне сохраняется He в форме RGB, а в внде байтовых кодов соответ- 
ствующих цветов (что было основным прнемом работы с цветом на заре персональной 
техники), то вместе с масснвом пикселов нужно в обязательном порядке храннть н 
таблицу HX цветовой коднровкн, H т. д. н т.п. Таким образом, в разлнчных задачах, 
различных устройствах ввода н различных предметных областях возникала необходн- 
мость хранить в заголовке растрового нзображення разлнчные типы дополннтельных 
данных; 

e Использование процедур сжатия данных. Цифровое изображение, особенно по- 
лученное на оптнческом сканере с высоким разрешением, занимает много места на 
AHCKe н B NAMATH компьютера. По той же прнчине оно медленно передается no различ- 
ным сетям компьютерной коммуникации. Для многих практнческнх прнложений — 
прежде всего, для снстем архивирования данных — задача уменьшения объема циф- 
ровых изображеннй стонт очень остро. Различные процедуры сжатня данных традн- 
цнонно реализуются в отдельных программных средствах — архиваторах, которые 
позволяют сжнмать любые компьютерные файлы вне завнсимостн от нх содержання. 
В то же время многие разработчнкн снстем для работы с нзображеннямн стремятся 
встронть возможность упаковки данных непосредственно в формат файла изображе- 
ния. Отчасти это связано с тем, что так удобнее пользоваться файламн нзображеннй, 
не вызывая внешних архнваторов. Отчастн — с тем, что нзображенне, как простран- 
ственно распределенный тнп данных, обладает некоторой дополннтельной спецнфн- 
ческой нзбыточностью по отношенню к любым пронзвольным чнсловым HJIH тексто- 
вым данным, что позволяет, по ндее, стронть спецналнзнрованные алгорнтмы сжатня 
нзображеннй, более эффектнвные no сравненню с алгорнтмамн общего назначения; 

e Исторические причины. Разлнчные фнрмы-разработчнкн ПО н устройств ввода 
для работы с нзображеннями, выпустнвшне некогда собственные форматы хранення 
н передачн нзображеннй, старалнсь в дальнейшем поддержнвать н распространять 
именно этот формат данных. 
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Нанболее распространеннымн на сегодняшний день являются следующне форматы 
цифровых нзображеннй: BMP, PCX, TIFF, GIF, JPEG. Основные характернстнки этнх 
форматов прнведены в табл. 2.3.1. 


Таблица 2.3.4. Файловые форматы цифровых изображений 


Формат | Макс. Макс. Макс. размер Метод сжатия Хранение 
число число восра ненна, нескольких 
бит/пикс. | цветоа изображений 


16 777 216 -, RLE Изобра- | - 
жение может хра- 
ниться в неупако- 
ваниом виде 


i ЕЕ т НИИ 
| 256 | 65535 x 65535 — | LZW —— | 


16777216 | всего 4 294 967295 | -. LZW. RLE, 
np. Изображение 
может храниться 
в иеупакованном 
виде 


|24 |16777216 | 65535 х 65535 | JPEG | 


TIFF 


Как вндно, одной H3 важных характернстнк формата цнфрового нзображення явля- 
ется применяемый в данном формате метод сжатня. Поэтому, прежде чем рассмотреть 
самн форматы файлов, вспомнни основные моменты, связанные CO сжатнем цнфровых 
данных. 


2.3.1. Методы сжатии цифровых изображений. Методы сжатня данных делят- 
ся на две основные группы: сжатие без потерь н сжатие с потерями информации. 
Сжатне цифровой ннформацнн без потерь широко нспользуется во всех областях, где 
необходнмо архнвнровать текстовые данные н компьютерные программы в внде нс- 
полняемых кодов. В этом случае любые потерн ннформацин при упаковке-распаковке 
данных могут прнвестн к потере илн нскаженню части содержания текста илн потере 
работоспособностн распакованной программы. Поэтому методы сжатия «с потерями» 
используются в основном в области записи и хранения цифровых мультнмедийных 
данных: нзображений, а также аудно- н вндеозапнсей. В этом случае с определенной 
потерей точностн оцнфровки можно смнрнться, если она будет незаметна нлн слабо 
заметна для восприннмающего BH/leO- или аудноданные человека. 

Сжатие без потерь основано на том, что всякне цифровые данные, рассмотрен- 
ные как последовательность (поток) бнт ннформацнонно избыточны. Это позволяет 
ставить вопрос о сжатнн данных в классической постановке, подразумевая под «сжа- 
тнем» передачу того же количества ннформацин с помощью последовательностей бит 
меньшей длины. Для этого нспользуются спецнальные алгорнтмы сжатня, уменьша: 
ющие избыточность. Эффект сжатия оценнвают коэффициентом сжатия 


К =njq, 


где п — число минимально необходнмых снмволов для передачн сообщения (прак- 
тически это число символов на выходе эталонного алгоритма сжатня), 4 — число 
символов в нсходном сообщении. При двончном кодированин п равно энтропии HC- 
точннка информации. 
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Среди простых алгоритмов сжатня без потерь нанболее нзвестнымн являются ал- 
горнтмы кодирования цепочек (Кип Length Encoding, RLE). B них все последователь- 
ные цепочки одинаковых символов заменяются парами значений {повторяющнйся CHM- 
вол, длнна цепочки}. Трудно представить себе реальный текст, в котором буквы часто 
ппппппппповторялись бы подряд. Однако на цифровых нзображеннях вполне могут 
встречаться значнтельные областн равной яркостн. Поэтому данный метод достаточно 
эффективен при передаче растровых нзображеннй (особенно созданных искусственно 
в графнческих редакторах), но мало полезен прн передаче текста. К методам сжатня 
без потерь относят также методы разностного кодирования, основанные на том, что 
разности амплитуд последовательных отсчетов, как правило, представляются мень- 
шим чнслом разрядов, чем самн амплнтуды. 

Статистическне методы сжатня можно пронллюстрнровать на примере известного 
метода Хаффмана. Идея этого метода заключается в том, что часто повторяющнеся 
снмволы следует кодировать более короткнин цепочками бит, чем символы, которые 
встречаются реже. Для этого стронтся двончное дерево, листья которого соответству- 
ют кодируемым снмволам, а код символа представляется последовательностью значе- 
ний ребер, ведущих от корня к лнсту (все они принимают соответственно значення 0 
или 1). При этом листья скиволов с высокой вероятностью появлення располагаются 
ближе к корню, чем листья маловероятных символов. Очевидный недостаток данного 
метода заключается в необходимости заранее знать вероятности прнсутствия раз- 
лнчных снмволов. Еслн они нензвестны апрнори, то для сжатия методом Хаффмана 
требуются два прохода по изображенню: на первом проходе собнрается гистограмма 
нзображения (подсчнтываются вероятностн появлення каждого возможного значения 
пнкселов), на втором проходе производится собственно кодирование. Этот недостаток 
устраняется в однопроходных алгоритмах адаптивного сжатия, в которых для кодн- 
рования нспользуется гистограмма не всего объема коднруемых данных, а только 
последних № просмотренных пикселов. 

Обобщеннем этого метода является метод, основанный на словаре сжатня данных. 
В таких алгорнтмах пронсходнт выделение H запомннание в специальном словаре уже 
не отдельных символов, а повторяющихся цепочек символов, которые соответственно 
коднруются цепочками меньшей длнны. В настоящее время нанболее распространен- 
ным алгоритмом сжатня без потерь является алгорнти LZW, предложенный Леипе- 
лем, Знвом н Уэлчем (Lempel, Ziv, Welch). Идея этого метода заключается в следу- 
ющем. Предположни, у нас ниеется словарь, хранящнй строкн символов (значений 
яркостн). Запншем в первые 256 ячеек простейшие «строки», состоящие нз одного 
снмвола, номер которого равен номеру ячейкн. Далее алгоритм просматривает вход- 
ной поток байт, разбивая ero на подстрокн и добавляя новые ячейки в конец словаря. 
Пусть нз входного потока прочитаны несколько последовательных символов, состав- 
ляющих строку s. Найдем в текущем словаре строку {, являющуюся самым длннным 
«префиксом» строки в. Под «префиксом» здесь понимается строка, целиком совпада- 
ющая с первыми сниволамн данной строки, еслн отсчнтывать HX «слева». Допустнм, 
самый длинный префикс, включающий максимальное колнчество символов, совпада- 
ющих с первымн символамн данной строкн, найден в ячейке с номером п. В этом 
случае мы выводнм число п в выходной поток, перемещаем указатель входного NOTO- 
ка на длину строки t вперед и добавляем в словарь новую ячейку, содержащую строку 
tc c, где с — символ анализируемой строкн s, следующий сразу после префнкса t. 
Такнм образом, данный алгоритм преобразует поток символов на входе в поток HH- 
дексов ячеек словаря на выходе. Прн размере словаря, напрнмер, в 4096 ячеек можно 
передавать 12 бнт на каждый нндекс. Каждая распознанная цепочка снмволов добав- 
ляет в словарь одну ячейку. Любая ячейка словаря, кроме самых первых, содержащих 
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одиночные снмволы, храннт копкю некоторой другой ячейкн, к которой в конец npu- 
писан один символ. При переполнении словаря упаковщнк может лнбо прекратнть 
его заполнение, лнбо очистить словарь (полностью или частнчно). Данный алгорнтм 
отлнчают высокая скорость работы — как при упаковке, так H при распаковке дан- 
ных, умеренные требовання к объему памяти н простая аппаратная и программная 
реалнзация. Он нспользуется во многих форматах хранення цифровых нзображений. 

Сжатие с потерями основано на том, что перед кодированнем данные предварн- 
тельно подготавливаются (фильтруются) таким образом, что сжатне отфнльтрованных 
данных опнсанными выше методамн становится существенно более эффективным, 
нежели сжатне самих нсходных данных. Идею такого преобразования легко понять 
на следующем прнмере. Пусть нмеется некоторое полутоновое нзображение «ecTe- 
ственной» сцены, включающее большие областн приблизительно однородной яркостн. 
В таких областях различня значеннй HHTeHCHBHOCTH соседних пикселов различаются 
лишь на несколько градаций серого, что существенно меньше, чем перепады яркостн 
на граннцах областей. Если мы попробуем непосредственно применить к такнм изоб- 
раженням. например, алгоритм RLE, то он будет совершенно неэффективен, так как 
средняя длина цепочек B точностн одннаковых значеннй яркости вдоль строк H306- 
ражения будет |-2 пнксела, что не даст никакого вынгрыша прн коднрованнн таких 
данных едлинамн цепочек». В то же время, с точкн зрения особенностей зрнтель- 
ного восприятня человека, незначительнымн флуктуациями яркостн вполне можно 
пренебречь. Допустим, мы сумелн отфнльтровать этн малые отклонения какнм-лнбо 
алгоритмом помеховой фильтрацин изображений (алгорнтмы помеховой фильтрации 
будут рассмотрены в разделах 3.2, 3.3 данной книгн). В результате такой обработ- 
KH «гладкость» изображения в однородных областях существенно повысится, н как 
следствне, эффектнвность сжатня нзображення даже таким простым алгоритмом, как 
КІЕ, сразу увеличится в несколько раз. В качестве примера современного алгоритма 
эффектнвного сжатия с потерямн ниже будет рассмотрен алгорнти сжатия JPEG. 

Заметим, что нз приведенного примера сразу становится видна M основная пробле- 
ма, связанная с применением сжатия с потерями ннформацин B снстемах машинного 
зрення. С одной стороны, чем более мощное сглажнвание изображения мы прнменяем 
на первом этапе, тем более эффективным будет его последующее коднрованне. С дру- 
гой стороны, чем мощнее алгоритмы сглажнвания, тем выше вероятность того, что 
вместе с шумом H незначительными флуктуациямн с нзображення будут также удале- 
ны н полезные деталн, окажутся нскажены контуры, может быть потеряна ннфориг- 
ция, обеспечнвающая точность распознавания H измерения объектов H T. п. Причем в 
технических задачах машннного зрения требовання к качеству анализируемых изоб- 
ражений, как правило, существенно выше, чем в задачах визуального представления 
ннформацни человеку (например, прн запнсн H воспронзведенин видеофильмов). Ta- 
ким образом, важно помнить, что, выбнрая метод н параметры сжатия (то есть формат 
хранения файла изображения), нужно HCKaTb компромисс между желаемой степенью 
сжатия данных, которая определяется располагаемымн объемами свободной памятн 
носнтеля ннформацин (диска, оперативной NAMATH, карты NAMATH H T. n.), H необхо- 
днмым качеством изображения, которое определяется техническими требованиями 
к работе создаваемой системы машинного зрения. 

Теперь рассмотрим вкратце каждый из ранее упомянутых форматов цнфровых 
изображений. 


2.3.2. Формат ВМР. Формат BMP (битовый массив, BitMaP) — это системный 
формат операционной системы Windows. В Windows АРІ (наборе функций ядра cu- 
стемы) предусмотрены готовые средства для его загрузки, сохранения, отображения 
и выполнения других стандартных операций по работе c нзображеннямн. В простей- 
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шем варнанте файл ВМР содержит классическую неупакованную структуру циф- 
рового нзображення, представленного в BHAE двумерного массива пикселов, которому 
предпослана некоторая «шапка» (header), содержащая размеры масснва H другую слу- 
жебную информацию. Такнм образом, в отличие от форматов, использующих сжатне, 
загрузив файл в формате BMP, вы сразу получаете доступ к пнкселам по HX коор- 
динатам (т,у) M можете непосредственно приступать к его обработке н анализу. Эти 
два фактора (простая структура н системная поддержка ОС Windows) делают данный 
формат крайне привлекательным для нспользования его в практических задачах на 
начальных этапах изучения машинного зрения. 

На примере файла ВМР удобно рассмотреть тнповую структуру заголовка файла 
цифрового нзображення. Для простейшего варианта формата ВМР она нмеет следу- 
ющнй BHA (инже прн опнсанни программных структур нспользуется нотация языка 
программировання С, смысл полей данных ясен из комментарнев). 

Сначала размещается структура BITMAPFILEHEADER, описывающая общую 
структуру файла: 


BITMAPFILEHEADER 

typedef struct tagBITMAPFILEHEADER ( 

word bfType: //тип файла 

dword bfSize; //paauep файла в 32-битных словах dword 


word bfReservedl; //в общем случае не используется 

word bfReserved2; //в общем случае не используется 

dword bfOffbita; //смещение начала данных двумерного массива OT 
//заголовка в байтах 

} 


Непосредственно за ней располагается структура BITMAPINFO, содержащая ин- 
формацню о массиве пикселов. Она делнтся на две части: структуру 
BITMAPINFOHEADER, описывающую размеры н цветовой формат массива изобра- 
ження, н массив структур RGBQUAD, определяющий цветовую палитру нзображення, 
если оно не является полутоновым. 


typedef struct tagBITMAPINFO { 
BITMAPINFOHEADEBR bmiHeader; 

RGBQUAD bmiColors[1]: 

} 

typedef struct tagBITMAPINFOHEADER { 


dword biSize; //число байт, занимаемых структурой 
/ /BITMAPINFOHEADER 
dword biWidth; //ширина изображения в пикселах (Dimx) 
dword biHeight; //высота изображения в пикселах (DimY) 
word biPlanea; //число битых плоскостей устройства 
word biBitCount; //число бит на пихсел 
dword biCompression; //тип сжатия (смотри ниже) 
dword biSizelImage; //pasuep изображения в байтах 
dword biXPelsPerMeter; //горизоитальное разрешение устройства, 
//пиксел/ы 
dword biYPelPerMeter; //вертикальное разрешение устройства, пиксел/ы 
dword biClrUsed; //число используемых цветов 


dword biClrImportant; //число "важных" цветов 
} В:ТМАРТМРОНЕАОЕВ; 


Рассмотрим более годробно некоторые поля данной структуры. 
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biSize — размер структуры. Его полезно знать, чтобы при считывании файла можно 
было сразу перейтн к следующему элементу (таблице цветов). 

biBitCount — этим полем определяется число цветов или градаций серого, со- 
держащихся в пикселе нзображення. В 3aBHCHMOCTH от способа кодирования, может 
принимать значения; 

e | — монохромное (бинарное) нзображенне. Каждый бит в массиве данных KOAH- 
рует один пиксел; 

e4 — изображение имеет не более 16 цветов или градаций серого. Соответственно, 
u массив bmiColors (таблица цветов) нмеет до 16 элементов. Цвет каждого пиксела 
определяется по таблице цветов при помощи четырехбнтного индекса; 

e8 — изображение имеет 256 цветов илн градаций серого. Таблица цветов имеет 
256 элементов. Каждый байт массива данных определяет значение одного пиксела. 
Наиболее распространенный формат для записи и обработки полутоновых изоб- 
ражений; 

®24 — нзображенне допускает 224 цветов. Таблица цветов пуста, а цвет пикселов 
определяется пакетамн из трех байт (RGB), непосредственно хранящимися в массн- 
ве изображения H описывающимн цветовые ннтенснвности соответственно красной, 
зеленой и голубой составляющей цвета пиксела. 
biCompression — тип сжатия. Может принимать значення: 

eBl RGB — сжатне отсутствует; 

e BI_RLE8 — сжатне для формата 8 бнт на пиксел; 

»В!_ВГЕ4 — сжатие для формата 4 бита на пиксел. 
biXPelsPerMeter н biYPelsPerMeter — пространственное разрешение нзображення, 
определяемое свойствами устройства ввода н режимом сканирования. 

Далее в файле располагается собственно массив изображения. Он хранится после- 
довательно по строкам, причем первой строкой считается нижняя строка изображения 
(начало координат находнтся в левом нижнем углу изображения). Заметим также, 
что в файлах BMP длина строк изображения выровнена таким образом, чтобы быть 
кратной четырем байтам (32 бита, dword). Это сделано для удобства опернрования c 
нзображеннямн в 32-бнтной архитектуре. 

Не все файлы ВМР нмеют такую структуру. В частности, в некоторых варнантах 
формата изображение может сжиматься посредством алгоритма RLE. В Windows так- 
же допускается работа c ВМР-файлами формата OS/2, в которых используются иные 
форматы ннформацнонного заголовка растрового массива H таблицы цветов. 


2.3.3. Формат РСХ. Формат РСХ — исторически первый стандарт представления 
растровой графики на персональных компьютерах 1ВМ РС. Этот формат изначально 
применялся в программе Paintbrush фирмы ZSoft н впоследствии был преобразован 
фирмой Microsoft в Windows Paintbrush. Формат PCX удобен для хранения искус- 
ственных изображений, в которых присутствуют значительные области однородных 
цветов, и плохо приспособлен для хранения «естественных» изображений, получен- 
ных различными устройствами ввода. В связи с этим область применения данного 
формата в последнне годы сокращается, хотя файлы в формате РСХ по-прежнему во 
множестве можно встретить в различных многолетних архивах цифровых изображе- 
ний. 

Файлы формата PCX содержат следующие три основных блока: 

e заголовок PCX; 

e данные растрового массива; 

e факультатнвная таблица цветов. 
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Заголовок РСХ нмеет размер 128 байт н содержнт несколько полей, в том числе — 
размеры изображения н количество бит, коднрующих ннформацию о цвете каждого 
пиксела. Растровый массив изображения сжимается с помощью алгоритма сжатия 
RLE. Факультативная таблица цветов содержит 256 значений цветов RGB, опреде- 
ляющих цвета изображения. Такая структура связана с тем, что формат PCX был 
изначально разработан с расчетом на существовавшие в то время адаптеры ССА- н 
ЕСА-днсплеев, поддержнвавшне малое количество цветов на экране персонального 
компьютера. В дальнейшем формат был модифицирован для нспользования с более 
современными адаптерами УСА и даже truecolor (RGB). Соответственно кодирование 
цвета в современных верснях PCX может производиться с глубиной 1, 4, 8 илн 24 
бит на пиксел. 


2.3.4. Формат GIF. Разработанный компанией CompuServe формат GIF (Graphics 
Interchange Format, произносится «джиф») был задуман как формат межплатформен- 
ного обмена графическими данными. Предназначенный для пересылки файл не может 
иметь большого объема, поэтому в формате GIF пиксел изображения не кодируется 
количеством бит более 8. Кроме того, этот формат использует рассмотренный выше 
алгоритм сжатия данных LZW. Еще одной важной особенностью данного формата 
является то, что формат GIF позволяет сохранять в одном файле два н более изобра- 
жений. Существует даже понятие «анимированный GIF»: один нз режимов визуалн- 
зации файла формата GIF предполагает последовательное отображение хранящихся 
в файле картинок, что создает эффект короткого мультфильма. Такне файлы кашли 
широкое применение в мультнмедийных интернет-прнложеннях. 

Конкретная структура файла GIF зависит от версин СІЕ-спецификации, которой 
соответствует файл. Независимо от номера версин, файл GIF начинается с заголовка 
длиной 13 байт. Заголовок содержит специальную «подпись», которая ндентнфициру- 
er этот файл в качестве файла GIF, номер версин формата GIF н другую служебную 
информацию. Если файл содержит одно изображенне, то сразу после заголовка, как 
правило, располагается таблица цветов. Если в файле хранится несколько изобра- 
жений. то вместо общей таблицы цветов каждое изображение сопровождается своей 
локальной таблицей цветов, Вслед за заголовком н общей таблицей цветов размеща- 
ется нзображенне, которое может быть первым H3 иескольких располагаемых подряд 
изображений. Каждое следующее нзображенне состонт из 10 байт заголовка изобра- 
ження, локальной таблииы цветов н массива растровых данных, которые сжимаются 
с помощью алгоритма LZW. 

Файлы формата GIF89a могут также содержать следующие факультативные блоки 
расширения с дополнительной информацией о каждом нзображенни: 

®блоки управления графикой, которые описывают, как изображение должно Bbl- 
водиться на экран (например, накладывается ли оно на предыдущее изображение 
подобно дкапозитнву или просто заменяет его); 

e текстовые блоки, содержащие текст, отображаемый вместе с графикой; 

®блоки комментариев, содержащие текстовые комментарии в коде ASCII; 

® блоки информации прикладных программ, в которых хранится информация, при- 
надлежащая создавшей н использующей этот файл прикладной программе. 

Блоки расширения могут находиться практически в любом месте файла после общей 
таблицы цветов. 

В настоящее время формат GIF широко распространен благодаря своей oTHoCH- 
тельной компактности H возможностям «анимации» C нспользованнем текста. Однако 
в области обработки н анализа изображений этн достониства не играют определяю- 
щей ролн. 
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2.3.5. Формат TIFF. Формат TIFF (Tagged Image File Format, формат файлов 
изображения, снабженных «тегами», то есть меткамн-дескрипторамн) был изначально 
создан для хранения изображений и серий изображений, оцифрованных с помощью 
оптических сканеров. По структуре это одни H3 самых сложных H многоварнантных 
форматов хранения изображений. Файлы формата TIFF нмеют расширение TIFF unu 
TIF. Каждый файл начинается заголовком изображения (Image File Header, 1ЕН). 
Важнейший элемент этого заголовка — каталог файлов изображений (lmage File 
Directory, IFD), служащий указателем на информативные структуры данных. IFD 
представляет собой таблицу для ндентификации одной или нескольких порций AAH- 
ных переменной длины, называемых тегами. Теги, в свою очередь, хранят ннформа- 
цию 06 нзображеннях. В спецификации TIFF определено более 70 различных типов 
тегов. Тег одного runa хранит информацию о ширние изображения в пикселах, дру- 
гого — ниформацию о его высоте; тег третьего тнпа указывает на таблицу цветов, 
тег четвертого типа содержит самн данные растрового массива н т. д. Такой формат 
на самом деле представляет собой достаточно гибкое н пространное опнсанне u306- 
раження, написанное на специальном языке, основу которого составляют слова-теги, 
а синтаксис определяется стандартом ТІРЕ. Этот «язык» может легко н естествен- 
но расширяться путем добавления новых типов тегов. Файл TIFF может содержать 
несколько изображений, каждому из которых сопутствуют собственный IFD н набор 
тегов. Растровые данные в каждом из изображений могут сжиматься с нспользова- 
нием любого из нескольких методов. в число которых входят RLE, LZW н несколько 
других. 

Сложность H гибкость данного формата является, с одной стороны, его досто- 
инством, с другой — порождает целый ряд проблем. Основная из них связана C 
совместимостью. Во-первых, формат столь обширен н трудоемок в реализации, что 
лишь немногие пакеты, работающие с изображениями, обеспечивают возможность 
правильного считывания всех существующих модификаций файлов TIFF. Если же в 
одной программе реализовано одно подмножество формата, а в другой — другое, то 
велика вероятность того, что файл, сохраненный в одном пакете, не будет корректно 
прочитан в другом. Во-вторых, предусмотренная для разработчиков оригинального 
прикладного ПО возможность создавать свон спецнализированные расширения фор- 
мата TIFF, добавляя новые теги, чревата тем, что нзображения, созданные TAKHMH 
системамн, будут неверно или не полностью считываться стандартнымн пакетами, 
игнорирующимн HeH3BeCTHble им новые теги. 

Тем не менее, несмотря на существование указанных проблем, формат TIFF стал 
«Де факто» стандартом в области хранения н передачи сканерных изображений. Он 
также активно используется H в областн создания приложений машннного зрення. 


2.3.6. Формат JPEG. Формат JPEG был создан в результате работы объедннен- 
ной группы экспертов в области фотографии JPEG (Joint Photographic Experts Group). 
Он был задуман н разработан как новый международный стандарт сжатня цветных 
изображений. Группа JPEG взяла на себя задачу разработки общеупотребительно- 
го стандарта сжатня с тем, чтобы удовлетворить нуждам большииства возможных 
устройств и приложений, которые испытывают необходимость в сжатин изображений 
с высокнии степенями сжатня. Эта задача была блестяще решена, н в настоящее 
время формат JPEG является основным стандартом ввода, хранения H передачи нзоб- 
ражений, получаемых от цифровых фотоаппаратов, бытовых видеокамер, web-kaMep н 
множества других бытовых H спецнализированных устройств. При этом формат JPEG 
действительно одновременно обеспечивает хорошее визуальное качество изображений 
н высокую степень сжатня данных за счет нспользования специального алгоритма 
сжатия, относящегося к классу алгоритмов сжатия с потерями нииформацин. 
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Формат JPEG — достаточно сложный н гибкий формат. Он обеспечивает B03MOX- 
ность сжатия/восстановления изображений в следующих четырех различных режн- 
мах работы: 

® последовательное кодирование — каждый компонент изображения кодируется 
за один проход слева-направо, сверху-вниз; 

• постепенное кодирование — изображение кодируется за несколько проходов для 
прнложений, где время передачи велико и наблюдатель предпочитает следнть за тем, 
как нзображенне восстанавливается за несколько проходов от грубого к точному; 

e кодирование без потерь — нзображенне кодируется так, чтобы гараитировалось 
точное восстановление значення каждого отсчета изображения (даже если результа- 
том будет малый коэффициент сжатня по сравнению с режимамн с потерей информа- 
цин); 

• иерархическое кодирование — нзображенне кодируется с несколькими значення- 
мн разрешения, так что варнанты с низким разрешением могут быть доступными для 
просмотра без необходимости восстанавливать изображение с полным разрешеннем. 
Для каждого режкма определен один илн несколько кодеков. Слово кодек означает 
здесь «кодер/декодер». Кодекн для разных режимов отличаются точностью, с которой 
они могут работать с отсчетамн изображення, н методом энтропнйного кодировання, 
которые используют. Базовый последовательный кодек, основанный на днскретном 
косннусном преобразовании (ДКП), является богатым и сложным методом сжатия, 
который является вполне достаточным для многих приложений. Кроме того, чтобы 
удовлетворить требованиям режниа работы без потерь, группа JPEG выбрала простой 
прогнозирующий метод, никак не связанный с ДКП-обработкой. 

JPEG-cxarHe на осиове ДКП. Рассмотрим алгоритм сжатня серого полутонового 
изображения. Вначале изображение разбивается на квадратные блокн размером 8 x 8 
пикселов. Алгоритм сжатня каждого блока 8 x 8 включает следующие три основных 
шага: 

© дискретное косинусное преобразование: 

® квантование полученных значений; 

e сжатие без потерь полученных квантованных данных. 

Дискретное косинусное преобразование определяется следующей математнческой 


формулой: 


7 7 
F(u,v)= «Сис Аи cos mc + | COS [ Qv t v]. 


т=0у=0 


ДКП связано с дискретным преобразованием Фурье (ДПФ). Значения коэффициен- 
тов ДКП можно рассматривать как относительные величины вкладов двумерных npo- 
странственных частот, содержащихся в исходном 8 x 8 = 64-точечном входном CHT- 
нале. Так как обычно значения отсчетов нзменяются очень медленно при переходе 
от одной точки изображения к другой, в типичном 8 x 8 блоке исходного изображе- 
ния ббльшая часть пространственных частот HMeeT нулевую илн близкую к нулевой 
амплитуду H не требует коднрования. 

На втором этапе каждый из 64 коэффициентов полученной матрицы ДКП еднно- 
образно квантуется в соответствии с 64-элементной таблицей квантования, которая 
должна быть задана как характеристнка кодера. Квантование предназначено для того, 
чтобы добиться дополинтельного сжатия путем представления коэффициентов ДКП 
с точностью не большей, чем необходимо для достижения требуемого качества нзоб- 
раження. Иначе говоря, целью этого шага обработкн является освобождение нзобра- 
жения OT ннформацин, которая не является внзуально значимой, 
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Завершающий этап алгоритма JPEG-cxarus полутонового изображения представ- 
ляет собой сжатне без потерь полученных квантованных данных. Прн этом первый 
(нулевой) коэффициент ДКП кодируется по разностной схеме сжатия, а остальные 63 
коэффициента ДКП блока кодируются по схеме Хаффмана. 

Сжатие цветного нзображення этим методом можно приближенно представнть 
себе как сжатне нескольких полутоновых изображений, которые сжимаются либо по 
отдельности, либо с чередованием 8 x 8-блоков каждого H3 них. 

При сжатии описанным методом потерн ннформации происходят на втором ша- 
ге процесса. Чем большие пороговые значения указаны в матрице квантования, тем 
больше отбрасывается информации нз изображения н тем более плотно сжимается 
изображение. Проблема состоит в том, что более высокие значения квантования прн- 
водят к худшему качеству изображения. Поэтому npu формировании изображения 
JPEG пользователь может устанавливать показатель качества, величина которого 
«управляет» значениями матрицы квантования, Оптимальные показатели качества, 
обеспечивающие лучший баланс между коэффициентом сжатия H качеством H306- 
раження, различны для разных изображений H обычно устанавливаются в каждом 
конкретном практическом случае экспериментально. 

Алгоритм ЈРЕС-сжатия без потерь. Для решения данной задачи группа 
JPEG выбрала простой прогнознрующий метод, совершенно He связанный с ДКП- 
обработкой, описанной выше. Суть его заключается B том, что предиктор комбинн- 
рует до трех значений соседних отсчетов (А, В и С) для выработки прогноза для 
отсчета Х. Затем этот прогноз вычитается из действительного значения отсчета Х, 
н разность кодируется без потерь одним из двух методов энтропийного коднровання: 
методом Хаффиана или методом арифметического кодирования. 

На рис. 2.3.1а-г представлен пример сжатия цифрового изображения человече- 
ского лица, На рис. 2.3.14 показано стандартное тестовое полутоновое изображение 
размера 256 x 256 (256 градаций серого). Его исходный размер в неупакованном фор- 
мате BMP — 66614 байт. puc. 2.3.16 показан результат ero сжатия в формате JPEG 
с параметром «качества» 95% (размер файла — 30703 байт). На puc. 2.3.16 показан 
результат сжатня в формате JPEG с параметром «качества» 20% (размер файла — 
4617 байт), На рис. 2.3.12 показана попиксельная разность изображений рис. 2.3.14 
н рис. 2.3.1г. На последнем изображении хорошо видны высокочастотные элементы 
информации, «потерянные» в ходе сжатия. 

Эксперименты, аналогичные данному примеру, позволяют сделать вывод о TOM, что 
при коэффициентах сжатия порядка 15-25 раз — визуальное качество как полутоно- 
вых, так H цветных изображений практнчески полностью сохраняется. Пронсходит 
незначительная потеря контурной (высокочастотной) информации, которая, однако, 
не снижает возможностн как зрительного, так H автоматического опознавания чело- 
веческого лица по нзображению. 

Согласно данным, приводимым в литературе ([41], [45], [46], [119]), для цветных 
изображений с умеренно сложными сценамн все ДКП-режнмы работы обычно дают 
следующие уровни качества изображений для указанных днапазонов сжатня: 

®0,25-0,5 бит/пиксел — качество в днапазоне от удовлетворительного до хороше- 
го (достаточно для некоторых Интернет-приложеннй); 

®0,5-0,75 бит/пиксел — качество в днапазоне от хорошего до очень хорошего 
(достаточно для многих приложений); 

®0,75-1,5 бит/пнксел — отличное качество (достаточно для большинства прило- 
жений); 

®1.5-2,0 бита/пнксел — зрительно неотличимо от орнгинала (достаточно для Ca- 
мых критичных приложений). 
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Эти уровнн являются лишь примернымн — качество H сжатие могут значительно 
изменяться в соответствии с характеристиками изображения H содержаннем сцены. 

Кодеры без потерь обычно дают сжатне примерно в 2 раза для цветных изображе- 
ний со сценамн умеренной сложностн. 

В заключение еще раз необходимо заметнть, что визуально приемлемое каче- 
ство изображений, сохраненных в формате JPEG, может оказаться принципналь- 
но недостаточным прн попытке использовать HX в системах технического зрения. 
Особенно важно учитывать этот момент при выборе средств цифровой съемки или 
оинфровки нзображений, Tak, напрнмер, в настоящее время большннство устройств, 
передающих цифровое вндео по каналу USB, используют встроенное на аппарат- 
ном уровне ЈРЕС-сжатне. Начиная работу с такими устройствамн, необходнмо сразу 
протестнровать получаемые нзображення на предмет возможных искажений, потерь 


Puc.2.3.1. Сжатие инфрового нзображення человеческого лица: а — тестовое полутоновое изобра- 
жение. б — результат сжатня с параметром «качества» 95%. в — результат сжатня с параметром 
«качества» 20%, г -- попнксельная разность нзображеннй в на 
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H артефактов, возникающих B Процессе кодирования/декодирования. Если эксперн- 
менты показывают, Что качество входных изображений недостаточно для решения 
поставленной технической задачи, необходимо выбрать другую систему видеоввода, 
лучше всего — обладающую большим разрешением н He использующую сжатие с 
потерямн на аппаратном уровне. 


2.3.7. Формат DICOM. Завершая обзор форматов хранения н передачи цифровых 
изображений, рассмотрим один специализнрованный формат, получивший распростра- 
нение H являющийся стандартом передачн данных только в одной, но крайне важной 
области — медицине, 

DICOM (Digital Imaging and Communications in Medicine) является стандартом, 
определяющим форматы хранения H передачи различными медицинскимн устройства- 
мн н программными прнложениямн цифровых изображений H информации, необ- 
ходнмой для ux днагностической интерпретации. Информационная модель стандар- 
та DICOM представляет собой объектно-орнентированную модель, ключевымн эле- 
ментами которой являются: «информационные объекты» — абстрактное описанне 
реальных объектов, используемых для представления медицинской информации, H 
«команды» (сервисы), которые могут выполняться над этими объектами. Комбинация 
информационного объекта H сервисов образует ЅОР-класс (Service-Object Pair Class), 
предоставляющий нитерфейс взанмодействия ОІСОМ -устройств н приложений, 

Для обеспечения совместимости на уровне интерпретации данных (атрибутов HH- 
формационных объектов) стандарт определяет набор правил (синтаксксов) кодирова- 
ния. Атрибут кодируется «элементом данных» — структурой, содержащей тэг (чис- 
ловое HMA) атрибута, ero тип (зависит от поддерживаемого снитаксиса), размер B 
байтах и значенне. Элементы данных объединяются в смысловые группы, упорядочн- 
ваются по возрастанию тэгов и в рамках экземпляра информационного объекта могут 
использоваться не более одного раза. С целью оптимизации доступа к отдельным 
атрибутам может добавляться стандартный элемент «размер группы в байтах», Син- 
таксис кодирования задает структуру элемента данных, порядок следования байтов 
прн записи данных: обратный — «младший-старший», прямой — «старший-младший» 
(Little Endlan, Big Endian), а также формат компрессии изображений. 

Для хранения информации на диске н ее передачн на съемных носителях стан- 
дарт DICOM определяет формат файла DICOM. Формат DICOM обеспечивает хра- 
ненне цифровых изображений, текстовой информации, а также видео- н ауднопо- 
следовательностей, Файл DICOM состонт из ннформацнонного заголовка (File Meta 
Information) н следующего за ним блока данных (экземпляра 5ОР-класса). Заголовок 
включает в себя сегмент служебной информации (128 байт), четырехбайтовый нден- 
тификационный префикс «DICM» и группу элементов, содержащих ннформацию об 
уннкальных идентификаторах ЅОР-класса, его экземпляра, приложения, записавше- 
го данный файл, н поддерживаемого синтаксиса кодировкн. После информационного 
заголовка следует блок данных. Файл DICOM может содержать только одии блок 
даниых, то есть один экземпляр ЗОР-класса. Зато стандарт DICOM предоставля- 
ет механизм формирования групп DICOM файлов и сервисы для управления этими 
группами. 

В части сетевого обмена данными стандарт DICOM вводит сервис верхнего уров- 
ня DIMSE (DICOM Message Servlce Element), определяющий набор протоколов, син- 
таксис н семантику команд, На нижнем уровне стандарт поддерживает стек прото- 
колов передачи данных, удовлетворяющих спецификации ISO/OSI, TCP/IP u стек 
протокола c выделенным соединением. О1М5Е-сервис предоставляет два типа ко- 
манд: команды выполнения H команды уведомлення. Информация передается в виде 
ОІСОМ -сообщеннӣй, состоящих из команды н данных. Команды кодируются набором 
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«командных элементов», представляющих собой структуры co следующнин полями: 
тэг, размер в байтах, значение, Командные элементы передаются в порядке возраста- 
ния тэгов, первыми идут иладшие байты (Little Endian). Данные в сообщении konn- 
руются элементом данных, исходя из поддерживаемого синтаксиса, Процесс обмена 
сообщениями начинается с этапа установлення ассоциации, смысл которого состоит в 
согласовании типов передаваемых данных н синтаксиса нх передачи, В случае успеш- 
ного выполнения данного этапа осуществляются передача команд выполнения H/IH 
уведомления согласно протоколам DIMSE-cepauca н завершение сеанса передачи. 

Аналогичные специальные форматы н протоколы передачи данных существуют и 
во многих других практических областях человеческой деятельности, хотя общей тен- 
денцией все-таки является унификация стандартов хранения H передачи нзображений 
в тех универсальных форматах. которые мы рассматривалн ранее. 


2.4. Цифровые видеопоследовательности 


До сих пор мы говорили о цифровом изображенин как об одномоментном фотогра- 
фическом кадре или документе, переведенном в цифровую форму, Соответственно 
н задачу его ввода, оцифровки, Хранения н передачн мы рассматривали применн- 
тельно к одному статическому кадру. Между тем, в большинстве современных задач 
вндеонаблюдення, технического зрения, управления мобильными объектамн н T. п, 
одно-единственное статическое изображение еще не позволяет получить всю необ- 
ходимую информацию о составе н характеристнках наблюдаемой дннамически ме. 
няющейся сцены, Задачи анализа собственного движения, выделения движущихся 
объектов сцены, контроля осуществляемых технических манипуляций н другие тре- 
буют регистрацин H анализа уже не одиночного цифрового изображения, а достаточно 
длительной цифровой вндеопоследовательностн, 

Начнем с процедуры регистрации видеопоследовательностей. Попутно нам при: 
дется немного затронуть н общие особенностн съемки динамических сцен, 


2.4.1. Скорость съемки. Стандартной скоростью ввода последовательностей 
изображений в областни вндеосъемки является скорость порядка 25-30 кадров B секун- 
ду. Такая скорость захвата/показа кадров была экспериментально установлена еще BO 
времена зарождения кинематографа в начале двадцатого века, В силу особенностей 
устройства зрительной системы человека нменно такое количество — 24 сменяющихся 
кадра в секунду — необходимо для того, чтобы вместо мелькающих отдельных кар- 
тннок человек увидел якобы плавно н непрерывно меняющееся нзображенке. Так в 
кино- и видеозаписи создается эффект «живого» изображения. Поэтому большинство 
устройств регистрации вндеонзображений, предназначенных для последующего BH3y- 
ального просмотра — бытовых видеокамер, камер снстем видеонаблюдения н т. п. — 
продолжают выпускаться именно с такой частотой смены кадров, 

Существует, однако, н множество технических задач, в которых стандартная ско: 
рость съемки кадров, ориентированная на визуальное восприятие, HH в коей степенн 
не является оптимальной, Примеры такой «замедленной» н «ускоренной» съемкн бы- 
лн известны задолго до того, как на повестку дня встали проблемы ввода н обработ- 
KH изображений в цифровом формате. Так, замедленный повтор голевых моментов 
спортивных состязаний действительно осуществляется путем медленной прокрутки 
вндеопоследовательностн, снятой с обычной скоростью, а вот замедленное движение 
в кинофильмах илн научно-популярных фильмах, демонстрирующих невидимые глазу 
детали движений человека, различных животных H быстронзменяющихся природных 
явлений, требуют сначала осуществить ускоренную съемку (причем скорость съемки 
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может быть увеличена в несколько раз илн даже несколько сотен раз), а затем — по- 
каз снятого видеоматернала со скоростью 25 кадров в секунду. С другой стороны, при 
регистрации медленно протекающих процессов применяется замедленная, лнбо проре- 
женная съемка с последующей демонстрацией отснятого материала со «стандартной» 
скоростью. Разница этих двух приемов кнносъемкн заключается в следующем. 

Замедленная съемка предполагает, что общее время съемки увеличивается за счет 
увеличения временн экспозиции каждого кадра. Увеличение временн экспозиции тре- 
буется в тех случаях, когда количество света, приходящее от объекта съемки за 1/25 
секунды, недостаточно для того, чтобы оставить на кннопленке HAH чувствительном 
элементе матрицы видеокамеры достаточно яркий н контрастный след, Примером та- 
кого рода является съемка астрономических объектов слабой светимости, Чем слабее 
«светит» регистрируемый объект, тем больше должна быть экспозиция, чтобы мы 
могли зарегистрировать необходимое количество пришедших от него фотонов. Ино- 
гда экспозицию приходится увеличивать до такой степени, что начинает сказываться 
относительное движение объекта за время наблюдения, H звезды начинают выглядеть 
на таких снимках как «Черточки», соответствующие участкам траекторий небесных 
тел, связанных с суточным вращением Земли. Это типичное явление динамического 
«смаза» изображения, которое мы еще рассмотрим чуть позже, 

Прореженная съемка — это такая разновидность видеомонтажа, при которой сама 
съемка ведется с обычной скоростью н обычнымн значеннями экспозиции, но BNO- 
следствин видеопоследовательность прореживается с определенным шагом (каждый 
второй кадр, каждый десятый, один кадр в секунду, в минуту, в час, в день нт. д.) 
При этом нзображенне объекта съемки выглядит привычно н естественно (поскольку 
каждый отдельный кадр ничем не отличается от любого кадра обычной видеосъемки), 
но изображение в целом движется быстрее, чем в жизни, Таким образом, например, 
создаются фильмы, демонстрирующие «ускоренный» рост растений, «быстрое» строн- 
тельство зданий, «быстрое» изменение земных ландшафтов. движение ледников нт. п, 


2.4.2. «Смаз» изображения. Рассмотрим теперь уже упомянутую выше про- 
блему динамического смаза изображений, Мы говорили о том, что смаз возникает 
при видеорегистрации объектов с большими экспозициямн, Однако понятие «большая 
экспозиция» здесь относительно — смаз возникает H при съемке со стандартной CKO- 
ростью съемки, если объект относительно камеры движется быстрее определенного 
значения скоростни. Это достаточно типичная проблема съемки динамически меняю- 
щихся сцен, характерная для всех видов регистрирующих устройств, вне зависимости 
от того, используют ли они в качестве приемника нзображення кино- и фотопленку 
или электронные устройства, аналоговые или цифровые, Дело в том, Что если за 
время экспознции объект успевает переместиться в пространстве (а образ объекта — 
соответственно в плоскости изображения) на заметное расстояние, то фотопленка или 
матрица вндеопрнемника успеет за это время накопить световые сигналы, нспущен- 
ные HJIH отраженные объектом в разных его положениях, Представьте себе, что мы 
специально «суммнруем» несколько последовательных кадров видеозаписи в одном 
кадре, При этом, разумеется, нзображенне объекта окажется «размазанным», лишен- 
ным четких контуров. Это и есть причина возникновения динамического смаза при 
видеосъемке. 

С точки зрения решения любых технических задач машинного зрения динамиче- 
ский смаз является эффектом вредным, он «портит» изображение, делая ero нерез- 
ким, мешает выделять и распознавать объекты, осуществлять нзмерення н считывать 
информацию. В современной обработке изображений существуют различные мате- 
матические методы реконструкции изображений, позволяющие частично илн даже 
полностью восстанавливать резкость смазанного изображення, однако такая фнльтра- 
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ция практически никогда не может быть произведена в реальном масштабе временн, 
Таким образом, единственный практический способ избавиться от смаза заключается 
в том, чтобы правильно организовать видеосъемку, исключив условия возникновения 
смаза. 


2.4.3. Этапы проектирования системы видеосъемки. 

Выбор экспозиции, Прежде всего, необходимо оценить минимально необ- 
ходимое время экспозиции, нсходя из оценки ожндаемой скорости движения объек- 
та съемки, Для этого, с учетом требуемого пространственного разрешения, скорость 
двнження объекта в пространстве пересчитывается в скорость движения его образа 
B пикселах в плоскости изображения, Отсюда легко определить время экспозицин, за 
которое образ объекта сдвинется не более чем на | пиксел, Это н есть минимально 
необходимое время экспозиции в данной задаче. 


Выбор камеры. Следующим этапом является выбор аппаратуры для видео- 
регистрации, Допустимые времена экспозиции являются паспортными данными BH- 
деокамер — как цифровых, так н аналоговых, Если минимально необходимое время 
экспозицин попадает в днапазон указанных в паспорте камеры варнантов экспозн- 
ции, данная камера в принципе может быть использована при создании программно- 
аппаратного комплекса для решения данной задачн, Здесь, однако, необходимо, обра- 
тить внимание на еще одну паспортную характеристику камеры, а нменно — тил раз- 
вертки. Современные камеры могут иметь один из двух типов развертки — прогрес- 
сивный H чересстрочный, Прогрессивный THN развертки означает, что камера действи- 
тельно один раз за 1/25 секунды формирует одно изображенне размера DimX x DimY 
с заданными параметрами экспозиции. Чересстрочный THN развертки означает, что 
данная камера за то же самое время на самом деле формирует не один кадр, а два 
полукадра размером DimX x DimY /2, которые затем передаются в компьютер илн на 
фреймграббер как целый «псевдокадр» размера DimX x DimY. При этом четные стро- 
ки псевдокадра составляют строкн первого полукадра, а нечетные строки — строкн 
второго полукадра (в связи с чем такой режим съемки H получил название «черес- 
строчный»). Прн съемке быстро движущихся объектов, даже еслн время экспозиции 
подобрано правильно, на чересстрочных нзображениях можно наблюдать визуаль- 
ный эффект «чересстрочного смаза», когда кажется, что на изобра женин находнтся 
не одно изображение объекта, а два его разномоментных «призрака», нногда пере- 
секающихся между собой н накладывающихся на фон видимой сцены, Иногда двух 
различных изображений на чересстрочном снимке не наблюдается, н лишь контуры 
объекта кажутся немного смазаннымн. Но при более близком рассмотрении обнару- 
живается так называсмый «эффект гребенки», связанный с тем, что контуры объектов 
в разных полукадрах нмеют все же несколько отличное положенне, H в результате 
контур объекта на суммарном псевдокадре имеет BHA «расчески» с выступающимн 3y- 
бьямн. Такой эффект чересстрочного смаза также является помехой для дальнейшей 
обработки н анализа изображення. Поэтому следует либо выбирать камеры с прогрес- 
сивной разверткой, либо в самом начале анализа нзображения разбивать введенный 
кадр на два полукадра н далее работать с ними как с независимыми изображениями, 
Достониством такого подхода является то, что вы получаете вндеопоследовательность 
C удвоенной скоростью съемки (не 25 кадров, а 50 полукадров в секунду). Во многих 
задачах технического контроля удвоенная скорость съемки, получаемая без удоро- 
жання системы на обычных видеокамерах, является предпочтнтельной и позволяет 
улучшить качество работы системы в целом. В то же время недостатком работы по 
полукадрам является то, что прн этом вдвое снижается пространственное разрешение 
по вертикали (ведь число строк полукадра вдвое ниже по сравнению с целым кадром), 
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Во-первых, этого разрешения может не хватить для Toro, чтобы обеспечить требуемую 
точность измерения объектов, во вторых, даже если точности хватит, изображение 
становится геометрически анизотропным н имеет разный масштаб по вертнкальной H 
горизонтальной осям, о чем все время придется помнить в ходе написання отладки 
алгоритмов геометрического анализа полукадров. 


Освещенность н подсветка, Наконец, послединм этапом формирования 
схемы съемки динамической сцены является анализ условий освещенности н, если 
необходимо, выбор устройств дополнительной подсветки. Действительно, мы ранее 
говорили о TOM, что выбранное время экспозиции определяется, с одной стороны, CKO- 
ростью движения объекта (чем быстрее движется объект, тем меньше должно быть 
время экспозиции), а с другой стороны — количеством фотонов, которое успевает 
попасть на видеопркемник (чем слабее поток света, тем дольше должно быть время 
экспозиции). Как видно, одно требование противоречит другому B снтуацин, когда 
объект движется быстро H в то же время слабо освещен, В случае близко располо- 
женных объектов (от сантиметров до десятков метров дальностн) естественным вы- 
ходом из этого противоречия становится нслользование дополинтельной технической 
подсветки. Подсветка увеличивает уровень освещенности объекта до необходимого 
для качественной регистрации при данном времени экспозицин. В качестве дополнн- 
тельного источника освещения в системах машинного зрения обычно используются 
имеющиеся в продаже готовые устройства технической подсветки — прожекторы. В 
случае, если система технического зрения требует использовать подсветку, а работа- 
ющим рядом людям такая подсветка могла бы помешать, используется инфракрасная 
подсветка (ИК-прожекторы). Такая подсветка невидима для человека н B TO же вре- 
мя ближний ИК-днапазон хорошо регистрируется практически всеми черно-белыми 
камерами для технического зрения H видеонаблюдения. 

Внимание! Современные цветные камеры имеют специальный фильтр, отсека- 
ющий свет ИК-диапазона (чтобы он не искажал красную составляющую цвет- 
ного спектра). Поэтому не следует использовать ИК-прожекторы с цветными 
камерами. Если ваша задача требует цветной съемки, используйте подсветку в 
видимом диапазоне, 

Во многих задачах, помимо общего уровня освещенности, к устройствам подсвет- 
KH также предъявляются H другие дополнительные требования — к однородности 
освещения, ero геометрии H так далее. Это обусловливает использование в таких 
системах различного рода специальных устройств подсветки. Например, при съемке 
металлических, стеклянных, полированных н других бликующих поверхностей ча- 
сто предъявляется требование создания однородной безбликовой подсветки. В таких 
задачах, как считывание штриховых кодов, нспользуется специальная лазерная ли- 
нейная подсветка. В фотограмметрических системах для трехмерного сканирования 
H бесконтактного измерения деталей н других объектов используется специальная 
структурированная подсветка. Вопросы, связанные со структурированной подсвет- 
кой, будут подробно рассмотрены в главе 5 данной книги. 


2.4.4. Быстрая съемка и съемка быстропротекающих процессов. Когда мы 
говорили о скоростн съемки, то упомннали уже «ускоренную съемку». При этом 
подразумевалось, что: 

e время съемки не ограничено; 

е скорость съемки может быть увеличена в разы по сравнению со стандартными 
системамн. 

Современные цифровые камеры обеспечивают возможность подобной быстрой съем- 
ки с параметрами порядка 100-150 кадров в секунду при разрешении кадра порядка 
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640 x 480 пикселов. Достижение более высоких скоростей съемки может быть ocy- 
ществлено только за счет уменьшення разрешення кадра либо за счет перехода к 
нспользованкю линейных камер (об ux достоинствах и недостатках мы уже писа- 
nu выше). Основным ограничителем здесь служит пропускная способность цифровых 
каналов передачи данных в реальном времени. Аналогичным образом пропускная 
способность каналов ввода ограничивает н возможность увеличения разрешения для 
видеоснстем, работающих с «обычной» скоростью съемки. Съемка с параметрами no- 
рядка (1300 x 1000 пикселов) x 30 кадров/с считается на сегодня нанлучшим варн- 
антом в смысле пространственного разрешення в реальном времени. 

Все это касалось быстрой, но непрерывной съемки движущихся объектов H AH- 
намических процессов. Между тем, существует целый класс объектов интереса, для 
которых характерны так называемые «быстропротекающие» процессы. Процесс можно 
считать быстропротекающим, если от начала до конца данного процесса проходит 
не более нескольких секунд или даже долей секунд. К таким процессам относятся Bce- 
возможные процессы взрывов, выстрелов, разрушения матерналов, сгорания топлива 
и 7. n. Для видеорегистрации таких процессов создан специальный класс устройств, 
которые позволяют осуществлять съемку в высоком пространственном разрешении CO 
скоростямн порядка 500, 1000 и даже 2000 кадров в секунду. При этом, поскольку нн 
однн современный канал передачи данных не позволил бы передать все этн данные в 
реальном времени по ходу регистрации, зарегистрированные кадры сохраняются B са- 
мой видеосистеме, а затем, после окончания процесса, «перекачнваются» в компьютер 
для дальнейшего хранення н обработки. Тнпичные на сегодня времена регистрации 
в таких системах: до З секунд в режиме (1300 x 1000 пикселов) x 1000 кадров/с; до 
10 секунд в режиме (800 х 600 пикселов) х 500 кадров/с. Экспозиции, применяемые 
в таких системах, являются уже не просто малыми, а сверхмалыми. Поэтому здесь 
еше более важно прн организации съемки оценивать уровень освещенности объекта 
съемки и при необходимости использовать специальные устройства дополнительной 
подсветки. 

Наконец, существуют системы видеорегистрацни изображений, временной интер- 
вал между которыми составляет наносекунды (107? с). Такие наносекундные систе- 
мы B настояшее время выдают даже не «фильм». а всего лишь несколько (3-6) после- 
довательных кадров, на которых регистрируются последовательные фазы сверхбыст- 
ропротекающих процессов, вндеорегистрация которых в принципе была невозможна. 
Использование подобных устройств только начинается H, несомненно, позволит в бу- 
дущем расширить сферу применения методов машинного зрения на новые интересные 
группы прикладных задач в области нанотехнологнй, 


2.4.5. Форматы хранения H передачи цифровых видеопоследовательностей. 
Для хранення н передачи последовательностей цифровых изображений используют- 
ся либо последовательности файлов нзображений стандартных форматов (BMP, GIF, 
JPEG), либо специальные форматы хранения видеоданных, в которых последователь- 
пые кадры кодируются специальным образом. отличным от кодирования статических 
кадров. 

Системы, сохраняющие последовательность кадров как последовательность (пап- 
ку. директорию} обычных статических изображений обладают тем очевидным пре- 
нмушеством, Что полученные изображения могут быть легко прочитаны, загружены 
H проанализированы любым из стандартных пакетов для работы с изображениями. 
Однако существует н ряд причин, делающих такой способ хранения н передачи менее 
предпочтительным no сравненню с использованием специализированных форматов 
цифровых видеоданных. 
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e Избыточность |. Каждое изображение последовательностн хранится вместе c 
собственным заголовком, содержашим тип, размеры, палитру н т. г. При небольшом 
размере изображения (например, 160 x 120 илн 320 x 200) служебная информация 
может занимать до 10% объема файла. Между тем, очевидно, Что для всех кадров 
видеопоследовательностн этот заголовок можно было бы записать всего лишь один 
раз н дальше хранить только CANH растровые данные. 

e Избыточность 2. Известно, что в медленно меняющихся сценах разность лю- 
бых двух последовательных кадров содержит значнтельно меньше информацни, чем 
сам нсходный кадр. Следовательно, применение разностных схем сжатня видеодан- 
ных, учитывающих нх последовательное расположение кадров, позволяет достичь 
существенно ббльших степеней сжатня видеопотока, Чем раздельное сжатне каж- 
дого кадра. Это особенно принципиально в задачах передачи цифровых вндеодан- 
ных. 

е Существуют дополнительные (например, временные) параметры видеосъемки, 
которые не сводятся только к параметрам каждого из изображений. Следовательно, 
для вндеопоследовательности в целом все равно приходится хранить некий специ- 
альный заголовок — в виде отдельного файла либо в виде заголовка единого файла 
видеопоследовательностн, записанной в специальном формате. 

e В мультимедийных прнложениях (запись видеофнльмов, клнпов H т, п.), помимо 
хранения вндеоданных требуется также осуществлять и параллельную синхронную 
запись звуковых дорожек, 8 иногда H некоторых дополнительных данных — тексто- 
вых H цифровых меток H T. п. Все это требует создания специальных единых форматов 
для хранения н передачи разнородных цифровых данных, имеющих временную про- 
тяженность. На первый взгляд может показаться, что это чисто мультимедийное 
требование, которое не может встретнться в системах технического зрення. Одна- 
ко, как мы уже говорили ранее. комплексирование данных, приходящих из самых 
разных источников — одна из основных тенденций в современных информационно- 
управляющих системах. В практической производственной задаче нам вполне может 
понадобиться осуществлять параллельную запись не только изображений от несколь- 
ких камер, но также H от нескольких микрофонов, нескольких электрических, TCH- 
зометрических, акустических н т. п. датчиков. Весь этот массив информации крайне 
неудобно затем анализнровать, если запись ведется в разные никак не связанные друг 
с другом файлы. 

Исходя из приведенных соображений для записи, хранения и передачи цифровых 
видеоданных был создан ряд специальных файловых форматов. Наиболее распростра- 
ненными из них на сегодня являются формат AVI и формат MPEG. 


Формат AVI. Универсальный формат AVI. Вероятно, самым распро- 
страненным форматом для хранения видеоннформации является сегодия формат AVI. 
Компания Microsoft впервые выпустнла пакет Video for Windows для операционной cH- 
стемы Windows 3.1 в ноябре 1992 года, н с тех пор формат AVI (Audio Video Interleave) 
является основным для хранения видео в операционных системах семейства Windows. 
Из других подобных универсальных форматов компьютерного вндео нанболее изве- 
стен формат QuickTime MOV фирмы Apple. 

Основное отличие универсального формата AVI от потоковых форматов типа 
MPEG илн таких специализированных разновидностей, как MP4 (MPEG Video Layer 
4), заключается B TOM, что «стандартных» АУІ-файлов npakrHuec«H не существует. 
AVI файл — это «контейнер», который содержнт общее описание содержимого в стан- 
дартизованном виде. Видео- н аудиопотоки, которые содержатся в А\1-файле, могут 
использовать любую комбинацию кодеков. Эти кодеки устанавливаются H DerHcTpH- 
руются в операционной системе независимо друг от друга. а программы кодирования 
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хранятся в отдельных ОШ. -файлах. При этом помнмо стандартных кодеков могут HC- 
пользоваться и нестандартные кодекн. AVI может содержать много различных видов 
компрессии в любых сочетаннях (например, DivX для видео н WMA для аудно). Pa- 
ботать с А\У!-файлом можно только в том случае, если необходимый кодек доступен 
для кодирования/декодирования на данном компьютере. Впрочем, если информация 
о кодеке содержится в АУІ-файле и вы имеете доступ в Интернет, программа-плеер 
может сама обратиться на сайт Microsoft али другой компанин, скачать необходимый 
кодек H установить его в системе. 

Воспронзведеннем АУІ-файлов в OC Windows управляет универсальная среда KOM- 
панни Windows Multimedia System, состоящая из интерфейса высокого уровня — 
MCI (Media Control Interface) или MCI API (Application Programming Interface) н 
низкоуровневых МС!-драйверов. 

Структура AVI файла, Формат AVI (Audio Video Interleave, чередующи- 
еся аудно н видео) позволяет одновременно хранить изображенне н звук, При Bocnpo- 
нзведенин видеопоток и дорожки звукового канала (waveform audio, илн WAV) anann- 
зируются, разделяются и обрабатываются драйверами различных устройств. Простые 
аудно- н видеопотоки могут содержаться в WAV или AVI файле без какого-либо cxa- 
тия (компрессин). 

Простейший WAV имеет стандартный заголовок Tuna PCM (Pulse Coded Modula- 
tion) и содержит аудноданные, обычно несжатые, полученные 8- или 16-разрядным 
сэмплированием аналогового звука. Однако так же, как и B AVI, в МАУ -файле может 
содержаться звуковая информация со сжатием, а также прописываться информацня о 
необходимом для воспроизведения кодеке. 

Структура АУІ-формата является варнантом формата RIFF (Resource Interchange 
File Format). разработанного компаниями ІВМ н Microsoft для обмена мультнмедий- 
ными данными. Файлы этого формата имеют вложенную блочную структуру, то есть 
состоят из блоков (chunks), которые, в свою очередь, могут содержать другие вло- 
женные блоки. Основной RIFF-6n0k содержит ндентификатор формата «avi», который 
указывает на тип файла. 

В соответствии с общей структурой ВІҒЕ-ткпа, АУІ-файл должен иметь следую- 
щий вид: 


RIFF ««AVI»» //четырехбуквенный идентнфикатор файла (в RIFF формате) 
LIST ««hdrl»» //список заголовков блоков, определяющих форматы потоков 


<<іах1>> //необязательный блок, определяющий размещенне блоков 
//данных внутри АУІ-файла 


В соответствии с этой структурой АУ І-файл имеет по крайней мере два обязатель- 
ных блока: заголовок н данные, которые, в свою очередь, могут содержать несколько 
подблоков. Первый блок будет содержать общую ннформацню о вндеоролнке: разре- 
шение кадров н HX частоту. формат аудно н т. д. Сначала в заголовке для записи 
длины потока отводилось 32 байт, поскольку в файловой системе FAT 16 макснмаль- 
ный раздел диска не мог превышать 2 Гбайт, поэтому н максимальный кусок видео, 
который можно было записывать в АУІ-файле, не мог превышать 2 Гбайт (с учетом 
знака переменной размера). C появленнем файловых систем FAT 32 н NTFS верхняя 
граница размера раздела значительно отодвннулась. 
Список «hdrls может состоять H3 подсписков: 
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LIST ««hdrl»» //списох заголовков блоков, определяющих форматы потоков 


««avih»» //главный заголовок АУІ-файла 
LIST ««strl»» 

««strh»» //заголовок потока 

<<strf>> //формат потока 

««strd»» //дополнительный заголовок данных 


Список «movi», в свою очередь, состонт из подблоков: 


LIST ««movi»» //6noxM данных (потоков) АУІ -файла 
SubChunk | LIST <<гес>> //подблок | список запнсей 
««Mwb»» (размер блока 4 байта) (data) //звуковые данные (блох) 
<<##4с>> (размер блока 4 байта) (data) //видеоданные (блок) 
<<##ар>> (размер блока 4 байта) (data) //видеоданные (блох) 


Таким образом. подблок данных организован в виде последовательностн записей, 
каждая из которых состоит из одного кадра видео н соответствующего звукового 
сопровождения. Первоначально ##4с-блок был предназначен для хранения сжатого 
изображения, а ##db-6nok — для несжатого DIB (Device Independent Bitmap). Но 
фактически они оба могут содержать сжатые данные. 

Одним из недостатков формата AVI является то, что аудно- н видеофрагменты не 
содержат никаких меток времени HAH индексов кадра. В простейшем случае каждо- 
му кадру видео соответствует фрагмент звукового сопровождения. но далеко не все 
А\1-файлы строятся no этой простой схеме. Недостаток, заключаюшийся B отсут- 
cTBHH временных меток, был устранен в расширенин А\1-формата — OpenDML AVI 
(поддержанном затем в системах DirectShow и в ActiveMovie). 

Цветовые палитры. Видеоданные в АУІ-формате могут быть подготовлены 
и сохранены в различных цветовых пространствах. которые можно условно разделить 
ло глубине цвета: 

®8-бнтная черно-белая палитра (256 градаций серого); 

е8-битная КО В-палитра (256 цветов); 

е9-битная палитра УЦУ9; 

e | 2-бнтная YUV (4:1:1); 

®16-битная YUV2 (4:2:2): 

e 16-бнтная RGB (5 бит для красного, 6 — для зеленого н 5 — для синего); 

е 24-битная RGB (стандартная ВО В-палитра); 

е32-битная RGB (с альфа-каналом). 

32-битная палитра по цветовой ннформативностн аналогнчна 24-битной, старший 
байт служит для определения атрибута прозрачностн. 

Видеокодекн. Запись видео н аудио в АУІ-формате может производнться как 
без сжатия, так н со сжатием (компрессней). Причем компрессня может быть как 
без потерь информации, так н с потерями. Существует много различных технологий 
сжатия, используемых компьютерными кодекамн, совместимыми с форматом AVI. В 
настоящее время нанболее популярны кодеки, основанные Hà разлнчкых варнациях 
дискретного косннусного преобразования (смотри выше описание алгоритма JPEG) н 
алгоритмах сжатня межкадровой разности (кодеки типа Н 261, Н.263, H.264, MPEG I, 
MPEG2. MPEG 4 н другне). 

C версин Video for Windows 1.1 в системе Windows начинают по умолчанию уста- 
навливаться несколько стандартных кодеков: Intel Indeo, Microsoft Video | (формат 
работает только c 8- и 16-битным цветом), Microsoft RLE (Run Length Encoding), 
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Cinepak (пришедший c платформы Macintosh вместе c QuickTime) н другне. Впослед- 
CTBHH К НИМ добавились полноцветные кодекн. которые возниклн вместе с платамн 
для захвата и монтажа видео на компьютере: Motion JPEG; Editable MPEG, который 
использует только [-кадры, и т.д. Есть M достаточно редкие, коммерческие кодекн, 
которые были созданы для специального использования. 

В последние годы к стандартным кодекам прибавились кодекн так называемой 
новой волны, порожденные новыми Технологиямн анализа движення. Такие кодекн 
способны выделять на изображении движущнеся н неподвижные части в отдельные 
объекты н применять к ннм раздельные методы сжатня, что позволяет добиться зна- 
чнтельного улучшения визуального восприятия при том же или даже меньшем объеме 
потока данных. Идея подобного кодирования заключается в том, что чем быстрее двн- 
женне объекта в поле кадра, тем выше может быть коэффициент компрессин для его 
отображения. 

Формат MPEG. Формат MPEG (Moving Pictures Experts Group) — наиболее pac- 
пространенный на сегодня формат записн и передачи цнфровых видеоданных B бы- 
товых видеосистемах (камерах и фотоаппаратах), Интернете и системах вндеонаблю- 
дения. Он использует эффективные алгорнтмы сжатия межкадровой разностн. Кроме 
того, этот формат позволяет записывать несколько сннхронных потоков цифровых 
данных от различных источников видео, аудно и другой информацнн. 

Все форматы сжатня семейства MPEG (MPEG 1, MPEG 2, MPEG 4. MPEG?) uc- 
пользуют высокую избыточность информацин в изображениях, разделенных малым 
интервалом времени. Между двумя соседними кадрами обычно изменяется только 
малая часть сцены. Например, происходит плавное смещение небольшого объекта на 
фоне фиксированного заднего плана. В этом случае полная ниформация о сцене может 
сохраняться выборочно — только для опорных изображений. Для остальных кадров 
достаточно передавать разностную информацию: о положении объекта, направлении 
H величине его смещения, новых элементах фона, открывающихся за объектом по Me- 
pe его движения. Причем эти разности можно формировать не только по сравнению 
с предыдущими изображениями, но н с последующими (поскольку именно в них, по 
мере движения объекта, открывается ранее скрытая часть фона). 

Форматы сжатня семейства MPEG сокращают объем закоднрованной ннформации 
за счет использования следующих основных эффектов: 

e Устраняется временная избыточность видео (учитывается только разностная HH- 
формация); 

e Устраняется пространственная избыточность изображений путем подавлення 
мелких деталей сцены. 

e Устраняется часть информации о цветности: 

e Повышается информационная плотность результирующего цифрового потока ny- 
тем выбора оптимального математического кода для его описания. 

Форматы MPEG сжимают только опорные кадры — /-кадры (Intra [rame — enym- 
ренний кадр). В промежуткн между HHNH включаются кадры, содержащие только 
изменения между двумя соседними |-кадрамн — так называемые Р-кадры (Predicted 
frame, прогнозируемый кадр). Для того чтобы сократить потерн информации между 
1-кадром н Р-кадром, вводятся так называемые В-кадры (Bidirectional frame, двуна- 
правленный кадр). В них содержится информация, которая берется нз предшеству- 
ющего H последующего кадров. Типичная последовательность кадров выглядит сле- 
дующни образом: IBBPBBIBBPBBIBB... Соответственно, последовательность кад- 
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ров в соответствии C HX номерами будет воспроизводиться в следуюшем порядке: 
1423765... 

Рассмотрим теперь различные модификации формата МРЕС. 

Форматы MPEG | н MPEG 2 В качестве начального шага обработ- 
KH изображения форматы сжатня МРЕС І и МРЕС 2 разбивают опорные кадры на 
несколько равных блоков, над которыми затем производится дискетное косинусное 
преобразование (ДКП). По сравнению с МРЕС І, формат сжатня MPEG2 obecne- 
чивает лучшее разрешение изображения прн более высокой скорости передачи BH- 
деоданных за счет использования новых алгоритмов сжатия н удаления избыточной 
информации, а также коднрования выходного потока данных. Кроме того, формат 
сжатия МРЕС 2 дает возможность выбора уровня сжатия за счет точности кванто- 
вання. Для видеозапнси с разрешением 352 х 288 пикселов формат сжатня MPEG I 
обеспечивает скорость передачи 1,2-3 Мбит/с, а МРЕС 2 — до 4 Мбит/с. 

Формат MPEG 4. МРЕС 4 использует технологию так называемого фрак- 
тального сжатня изображений. Фрактальное сжатие подразумевает выделение нз 
изображения контуров H текстур объектов. Контуры представляются в виде так Ha- 
зываемых сплайнов (специальных полиномнальных функций) и коднруются опор- 
ными точками. Текстуры могут быть представлены в качестве коэффициентов про- 
странственного частотного преобразования (например. днскретного KOCHHyCHOTO или 
вейвлет- преобразования). 

Днапазон скоростей передачи данных, который поддерживает формат сжатия вн- 
деонзображений MPEG 4, гораздо шире, чем в MPEGI н МРЕС 2. Формат сжатия 
видео изображений МРЕС 4 поддерживает широкий набор стандартов н значений ско- 
ростн передачи данных. MPEG 4 включает методы прогрессивного н чересстрочного 
сканирования H поддержнвает произвольные значения пространственного разрешения 
н скорости передачи данных в диапазоне от 5 Кбит/с до 10 Мбит/с. В MPEG 4 yco- 
вершенствован алгоритм сжатия, качество н эффективность которого повышены при 
всех поддерживаемых значеннях скорости передачи данных. 


Формат MPEG 7. Этот формат получил название Multimedia Content Des- 
cription Interface. В отличне от предыдущих форматов сжатия семейства MPEG, 
MPEG 7 описывает информацию, представленную в любой форме (B том числе B 
аналоговой) M не зависит от среды передачи данных. Как н его предшественники, 
формат сжатия MPEG 7 генерирует масштабкруемую информацию в рамках одного 
описания. 

Формат сжатия MPEG 7 использует многоуровневую структуру описания аудно- 
н видеоинформации. На высшем уровне прописываются свойства файла — такне, как 
название, ния создателя, дата создания нт. д. На следующем уровне описання формат 
сжатия MPEG 7 указывает особенностн сжимаемой аудно- или видеоннформации — 
цвет, текстуру, Тон нлн скорость. Одной нз отличительных особенностей МРЕС 7 яв- 
ляется его способность к определенню тнпа сжнмаемой информации. Если это аудно- 
или видеофайл, то он сначала сжимается с помощью алгоритмов MPEG 1, MPEG 2, 
МРЕС4, а затем описывается при помощи MPEG 7. Такая гибкость в выборе me- 
тодов сжатия значительно снижает объем ннформацин и ускоряет процесс сжатия. 
Основное пренмущество формата сжатия MPEG 7 над его предшественникамн COCTO- 
ит в применении уникальных дескрипторов н схем опнсання, которые, помнмо всего 
прочего, делают возможным автомгтическое выделение информации как по общим, 
так н по семантическим признакам, связанным с восприятием информацин человеком. 
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Процедура занесения в каталог H понска данных находятся вне сферы рассмотрения 
этого формата сжатня. 


2.5. Литература для самостоятельного изучения 


В книге (Гонсалес, Вудс) [19] обсуждаемым вопросам посвящены первая н вторая 
главы. Матернал в основном аналогичен по тематике, но представлен несколько более 
подробно, чем в нашем изложении. Обратите также внимание на разделы «Ссылки и 
лнтература для дальнейшего изучения» н «Литература. добавленная прн переводе». 

В книге (Форсайт, Понс) [44] первая часть книги «Формирование нзображений н 
моделн изображений» посвящена, в основном, тем вопросам формнрования изображе- 
ний, которые не были освещены выше, H в этом смысле удачно дополняет матернал 
данной главы. B 1-3 главах речь идет об оптике, моделях и калибровке камер (мы 
же лишь кратко затронем эти вопросы значительно позже в главе 7), в 4 главе о радио- 
метрии н особенностях отраження света на поверхностях, в 5 главе об источниках 
света н моделях затенения. Такой подход к природе изображений, основанный Hà 
анализе физических процессов, порождающих нанболее распространенный класс оп- 
тнческнх изображений видимого днапазона, безусловно, является методнческн крайне 
привлекательным H практически полезным. Он близок к интуитивным ндеям, связан- 
ным с человеческим зреннем. В рамках данного курса мы, тем не менее, не пошли по 
указанному пути в связи с тем, что стремились сохранить наиболее общее представ- 
ление о цифровых нзображеннях как о самостоятельных сущностях, в значительной 
степени He завнсимых от физикн способа ux формировання. Это, в частности, позво- 
ляет с единых позиций рассматрнвать не только оптические изображения видимого 
днапазона, но и изображения других диапазонов длин волн н изображения различной 
физической природы. 


2.6. Контрольные вопросы 


1) Что такое цифровое нзображенне? 

2) Как выполняются арифметические и логическне операции над изображениями? 

3) Какне вы знаете изображения различной физической природы? 

4) Какие основные ткпы изображений, получаемых путем регистрацни электро- 
магнитных волн различной длины, вы знаете? Какие признаки объектов по-разному 
проявляют себя в зависимости от изменения днапазона регнстрируемых длин волн? 

5) Как работают локаторы? Какне типы локаторов вы знаете? На каком физическом 
эффекте основаны способы регистрации поля скоростей? 

6) Какие тнпы элементов изображения (пикселов) используются в компьютерном 
зрении? В каких случаях пиксел представляет собой скаляр, а в какнх вектор? Что 
такое яркостный диапазон изображения? В какнх областях приложений используются 
изображения с повышенным яркостным разрешением? 

7) Какне типы устройств ввода цифровых изображений вы знаете? Чем отличаются 
камеры от сканеров? В каких областях применяются устройства каждого нз этих 
типов? Чем отличаются от обычных камер H зачем используются лннейные камеры? 
Каков принцип получения нзображення в цифровом фотоаппарате? 

8) В чем физическое отлнчне способа регистрации светового излучения в фотодн- 
одах н приборах c зарядовой связью (ПЗС, CCD)? 

9) Какова роль оптики в формировании цифрового изображения? Что такое фокус- 
ное расстояние H как следует выбирать объектив камеры в 38BHCHMOCTH OT дальностн 
расположения объектов в наблюдаемой сцене? 
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10) Чем различаются аналоговые н цифровые устройства получения изображения? 
Что такое фреймграббер? Нужны лн специализированные платы ввода при работе c 
цифровыми источникамн видео? 

П) Что такое пространственное разрешение нзображения? Чем отличается соб- 
ственное пространственное разрешение от внешнего? Для оценки хакой характеристн- 
KH нспользуются «пары линий»? Что такое dpi? Пространственное разрешение каких 
устройств измеряется B dpi? 

12) Какие форматы цифровых изображений вы знаете? Чем отличается сжатие без 
потерь от сжатня с потерями? В каких случаях следует нспользовать сжатие без no- 
терь? Каковы основные принципы H способы сжатия изображений? В какнх форматах 
изображений используются соответствующие способы сжатия? 

13) Что такое ‹ускоренная» н «замедленная» съемка? Для чего онн используются? 
Как следует выбирать камеры н параметры нх настройки B зависнмости от дннамнче- 
ских характеристик регистрируемых сцен н процессов? 

14) Какие форматы хранення н передачи цифровых вндеопоследовательностей вы 
знаете? Каковы основные принципы коднрования н передачи видеопоследовательно- 
стей? 
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2.7. ПРАКТИЧЕСКИЕ ЗАНЯТИЯ по теме «Цифровые изображения» 


2.7.1. Знакомство с пакетом Pisoít Image Framework. В нашей книге все из- 
лагаемые теоретические положения H оинсываемые методы машинного зрення будут 
нллюстрироваться примерами схем обработки. созданных в программном пакете для 
визуального программирования Pisoít Image Framework 9.0. 

Примеры, приведенные на рис. 2.7.1-2.7.3, демонстрируют осповные элементы 
пользовательского интерфейса этой программной системы. 

Фреймы. Фреймы являются основными элементами, из которых путем BH3y- 
алького программирования осуществляется построение схем обработки данных. Во 
фреймовой схеме каждый фрейм отображастся в BHAC «кнопки» (нконкн фрейма) c 
управляющими элементами, пиктограммой н кратким названием (рис. 2.7.4). 

При нажатни на иконку появляется меню фрейма н становятся доступными функ- 
цин фрейма — такие, как ввод параметров н обработка данных, управление окнами 
н связямн, запуск фрейма на исполнение. У каждого фрейма имеются следующие 
управляющие элементы. 

® Управляющая кнопка «!» выводит снстемную информацию о фрейме: 

— входные н выходные связн с указанием поддержнваемых типов данных; 

— входные H выходные числовые параметры с указанием HX значений. 

e Управляющая кнопка «?» выводит нидивидуальную справку по фрейму. 

e Управляющая киопка «Ё» предназначена для замены фрейма на другой фрейм 
(выбираемый из выпадающего меню) с совместимыми типами входных и выходных 
связей, 

e Управляющая кнопка «x» предназначена для удаления фрейма из схемы. 


Палитра фреймов, Палитра фреймов — это набор иконок фреймов, располо- 
женных по категориям (закладкам). Для вставки фрейма в схему необходимо пажать 
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Рис.2.7.1. Элементы интерфейса: палитра фреймов. пгнель схем, фреймы, окна изображений 
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Рис. 2.7.3. Элементы интерфейса: контекстное меню, подсказка фрейма, графические слои 
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на соответствующую кнопку палитры фреймов, затем указать нужное место во фрей- 
мовой схеме. Палитра фреймов служит для быстрого выбора фрейма, вставляемого в 
схему обработки. Альтернативными способами вставки фрейма являются пункт меню 
снстемы «Фреймы» или контекстное меню фреймовой схемы. 


Рис, 2.7.4. Визуальный интерфейс фрейма 


Фрей мовые схемы. Фреймовые схемы предназначены для реализации npo- 
цедур обработки нзображений н одномерных сигналов. Фреймовые схемы состоят из 
набора фреймов с установленными между нимн связямн. 

Для соединения фреймов во фреймовой схеме служат связи (линки), Связи бывают 
входные и выходные. Выходные связи могут разветвляться («oT одного — ко многим»). 
Во время работы фреймов по связям происходит обмен данными (изображениями, 
сигналами), числовыми параметрами, сообщениями. Для обозначения связей фрей- 
мы имеют спецнальные поля (кнопки). Входные связи находятся слева, выходные — 
справа. Еслн известен тнп данных, находящийся в связн, он отображается в виде 
соответствующей пиктограммы. Установка связн между фреймамн может осуществ- 
ляться двумя способамн: перетаскиваннем линин с помощью мыши от поля входной 
связн к выходной лнбо перетаскиваннем линии с помощью мыши от выходной связи 
к входной. 

Для работы с фреймовымн схемамн предназначены пункты меню «Файл» н «Стан- 
дартные схемы» главного меню снстемы. Подпункты меню «Файл»: 

e Новая схема. Команда формнрует новую панель схемы н загружает схему, KOTO- 
рая установлена по умолчанию. 

® Открыть. По данной команде выдается диалог открытня файла. При выборе 
файла создается новая панель н в нее загружается выбранная схема. 

® Сохранить. По данной команде выдается диалог сохранения файла. Активная 
схема сохраняется в заданный файл. 

® Закрыть. Данная команда уннчтожает актнвную схему. 

® Схема по умолчанию. По данной команде активная схема становнтся схемой по 
умолчанию. Она будет загружаться прн входе в систему н по команде Новая схема. 

e Добавить в стандартные. По данной команде выдается Дналог описания CXe- 
мы. Затем активная схема добавляется в набор стандартных схем. список которых 
появляется в виде меню пункта Стандартные схемы. 

В диалоге описания схемы необходимо ввести следующие строкн: 

Категория схемы. Создаваемая схема может входить в новую HJIH ранее создан- 
ную категорию. Категория появляется в виде подменю пункта Стандартные схемы. 

Описание схемы. Данная строка появляется как пункт меню в подменю категорий 
стандартных схем. 


78 ЦИФРОВЫЕ ИЗОБРАЖЕНИЯ Гл. 2 


Короткое имя схемы. В настоящий момент данная строка нспользуется только 
как ния файла, куда сохраняется схема. 

e Выполнить. Данная команда делает следующее. Во всех фреймах ввода данных, 
He нмеющих входных связей (пример — «/mporí»), активизируется система подсказок, 
H система предлагает ввестн данные в схему. Далее схема выполняется с HOBbIMH 
данными. 

e Настроить. По данной команде все фреймы схемы переходят B ненинциализиро- 

ванное состояние. Система подсказок помогает настронть каждый фрейм H выполнить 
обработку. 
Подменю «Стандартные схемы» главного меню системы содержит список всех стан- 
дартных фреймовых схем, зарегистрированных в системе. Список разбит на категорин 
(подменю), внутри каждой из которых располагаются все стандартные схемы данной 
категории. При выборе схемы из данного меню, она загружается в панель фреймовых 
схем. 

Контекстное меню фреймовой схемы появляется прн нажатин клавншн мыши 
на активной связи (обозначаемой красным светом). Меню содержнт команду удале- 
ния связи, а также список фреймов для быстрой вставки в схему. Данный список 
формируется дкнамическн в соответствии с типом данных актнвной связн. 

Синхронизация. Каждый фрейм нмеет две связи, которые по умолчанию 
не видны н HX использование необязательно. Данные связн предназначены только 
для уведомления. Если установлена входная связь уведомления, То данный фрейм 
начинает работу, только когда по данной связи придет соответствующий сигнал син- 
хронизации. Если установлена выходная связь уведомления, то данный фрейм го- 
сле окончання работы посылает no ней сигнал, иницинрующий запуск последующих 
фреймов схемы. Данные связн предназначены для реализации пакетных/циклических 
обработок и для синхронизации работы схемы, 


Mackuposannu e. Некоторые фреймы имеют также входную связь «Mask», ko- 
торая по умолчанию не видна н ее использованне не обязательно. Ее можно визу- 
ализировать через пункт меню фрейма «Mask». Связь предназначена для задання 
бинарной маски, которая указывает только Te пикселы, в которых пронсходнт обра- 
ботка. 


Окна. Окна изображений н снгналов служат для просмотра промежуточных pe- 
зультатов обработки. Окна могут быть как встроенными, так и плавающими. Некото- 
рые фреймы могут иметь собственные окна данных, которые, как правило, открывают- 
ся н закрываются по желанню пользователя через меню фрейма. Еслн предусмотрена 
возможность изменения данных пользователем, то фрейм может автоматически за- 
пускать обработку на основе измененных данных. Дналоговые окна служат для ввода 
параметров в процедуры обработки. Дналоговые окна являются модальнымн H прн- 
останавливают работу системы, пока пользователь не введет параметры. После ввода 
параметров запускается соответствующая процедура обработкн. 


Подсказки. Поскольку каждый фрейм — это отдельный модуль системы со 
своим набором функций н достаточно сложным интерфейсом, в системе реализована 
контекстно-фреймовая система подсказок. Если фрейм находится в нениицнализиро- 
ванном состоянии (не выбрана процедура обработки, не введены параметры обработ- 
ки, отсутствуют необходимые графические объекты H T. д.), TO он выдает короткую 
подсказку пользователю о возможных дальнейших действиях. 

Графические слои. Некоторые фреймы в процессе работы могут изменять 
состояния окон изображений и сигналов, отображая в них результаты обработки в од- 
ном или нескольких дополнительных графических слоях. Графические слон в данной 
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системе предназначены для визуализации графических объектов н ннтерактивной ра- 
боты с графическими объектамн в окнах нзображеннй. Функции графических слоев: 

ө визуалнзация слоев векторных объектов на изображенин (пассивные графиче- 
ские слон); 

е прнем команд пользователя H сообщений мыши для интерактнвной работы (ак- 
тивные графические слон); 

® наличие всплывающего меню для огерацнй с объектами; 

® возможность вывода растровой графики как объекта (изображенне поверх нзоб- 
ражения). 

Свойства графических объектов, составляющих графические слон: 

®ннтерактнвный ввод, удаление; 

e перемещение узлов н всего объекта; 

® переопределяемый цвет, гладкость, форма. 
Отличительной особенностью данной системы является то, что графические слон как 
программные объекты принадлежат не окнам данных н даже не фреймам данных, а 
фреймам процедур, которые работают с этимн даннымн. Как правило, фреймы раз- 
мещают графические слон в окнах данных, если необходима информация, которая 
может быть указана пользователем на изображении. Как только такая информация 
будет введена пользователем, фрейм автоматически запускает процедуру обработки. 

Меню актнвного графического слоя является контекстным н вызывается нажатнем 
правой клавиши мыши в окне данных. Меню состоит из команд вида Имя: Команда, 
где Имя — имя фрейма-владельца графического слоя или одно из системных имен 
(«Источник», «Приемник», «Область» и т. д.). Меню состонт из подмножества следу- 
ющих команд (B 38BHCHMOCTH от текущей снтуацин): 

Новая линия. Команда заканчивает построение текущего объекта типа «линия». 

Новый полигон. Команда заканчивает построение текущего объекта типа «полн- 
гон». 

Движение. Команда включает режим перемещення объекта целиком. 

Удалить узел. Команда удаляет узел объекта, на который указывает мышь. 

Удалить объект. Команда удаляет объект, на который указывает мышь, целиком. 

Свойства. Команда выдает дналоговое окно, в котором можно посмотреть коор- 
динаты всех точек объекта н изменнть его визуальные свойства (гладкость, цвет). 

Вращение. Команда реализована только для объекта типа «прямоугольинк». Она 
включает режим врашения прямоугольника. Вращение осуществляется с помощью 
мышнк с помощью захвата H перемещения одного из углов прямоугольника. 

Выбрать все. Команда реализована только для объекта тнпа «прямоугольник». 
Она создает новый прямоугольннк, заключающий в себя все изображение, содержа- 
щееся в окне. 

Точка. Режнм построения объектов типа «точка». 

Линия. Режни построення объектов тнпа «линия». 

Полигон. Режим построения объектов тнпа «полнгон». 

Прямоугольник. Режнм построення объектов типа «прямоугольник». 

Вектор. Режим построення объектов типа «вектор» (частный случай объекта тнпа 
«ЛИНИЯ»). 


Статусные строкн. Статусные строкн предназначены для отображения 
справочной н курсорозавискмой ннформацнн. В статусной строке приложення, как 
правнло, отображается назначенне команд меню H другая текстовая информация. B 
статусной строке окон изображення отображается ннформация о координатах курсо- 
ра, а также информацня о данных под курсором. 
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Меню фрейма. Ha puc. 2.7.5 показан пример меню фрейма, появляющегося 
прн нажатин на нконку фрейма. 


— Функции обработки 


^ Управление показом данных 


- Управление параметрами 


~ Управление уведомлениями 


У Управление бинарной маской 


N команда запуска 


Рис. 2.7.5. Типозое меню фрейма 


Меню фрейма, как правило, содержит следующие группы команд. 

e Функции обработки. Данные команды служат для выполнения работы, слецн- 
фичной для каждого фрейма. Более подробную информацию по ним можно найти в 
справке к каждому конкретному фрейму. 

e Управление показом данных. Команды данной группы служат для управления 
окнами входных H выходных данных фрейма. Окна можно показать, скрыть, или от- 
крыть заново другим вьюером. В системе может быть зарегистрировано несколько 
компонентов просмотра данных. Например, для просмотра изображений имеется про- 
стой вьюер, состоящий нз одного окна (Simple viewer) н многофункциональный вьюер, 
включающий несколько инструментов анализа изображений (Advanced viewer). 

e Управление параметрами. Фреймы могут иметь входные н выходные числовые 
параметры, которые также передаются по связям. По умолчанию связи, соответству- 
ющие параметрам, скрыты. Их можно визуализировать с помощью данной группы 
команд. 

® Управление уведомлениями. Фреймы имеют входные и выходные связн уведом- 
ления. По умолчанию этн связи скрыты. Их можно визуализировать с помощью дан- 
ной группы команд. 

e Управление маскированием. Команда управлення бинарной маской делает види- 
мой илк скрывает соответствующую связь. 

e Команда запуска позволяет асннхронно запустить фрейм с текущимн настрой- 
камн. 


Средства отображення в режиме «Источннк-Приемник». Данные сред- 
ства служат для включения режима просмотра геометрических трансформаций. По- 
скольку некоторые фреймы выполняют сложные геометрические преобразования пнк- 
селов изображений, было разработано средство для визуального отображения таких 
преобразований. Команда «Источник» регистрирует указанное окно в качестве нсточ- 
ника данных для преобразования, команда «Прнемник» задает конечное окно данных 
в цепк преобразований. Если в текущей схеме существует непрерывная цепь CBA- 
зей (линков) между выбранными окнами, TO в них активизируются соответствующие 
специальные графическне слои «Источник» н «Приемник». После этого ручной ввод 
графических объектов в окне «Источник» приводит к геометрическому преобразова- 
нию координат объектов согласно фреймовой схеме (прямое преобразование), причем 
результат преобразования отображается в окне «Приемник». И наоборот, ввод rpa- 
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фических объектов в окне «Прнемник» приводит к геометрическому преобразованию 
координат объектов согласно фреймовой схеме (обратное преобразованне), а резуль- 
тат обратного преобразования отображается в окне «Источник». Если прямого илн 
обратного преобразования ме существует, то выдается соответствующее системное 
сообщение. 

Типы данных. В табл. 2.5.1 показаны типы данных, используемые в системе. 
Некоторые из них поддерживаются системой Windows в виде стандартного формата 
ВМР. Остальные поддерживаются только системой Pisoft, но хранятся также в фор- 
мате ВМР совместно с дополинтельной информацией. Тип данных empty означает, 
что фрейм может работать, даже если соответствующая связь не содержит данных. 


Таблица 27.1. 


Пиктограмма Системное Ha- 
звание 


_ 8-битное полутонозое 
изображение 


Поддержка Количество 
Windows каналоз 


24-битное userHoe изобра- 
жение 


32-битисе цветное изобра- | 32 bit 


жение 


8-битное многоканальное 
цело<ислениое беззнако- 
зое изображение. бниар- 
ная маска 


16-битиое миогоканальное 
целочислениое беззнако- 
зое изображение 


16-битиое миогоканальное 
целочислепнное знаковое 


< 


Byte 


T 
3 
E 
5 
о 
8 


Word Her Любое 


Нет Любое 


32-битное многока- 
налькое целочислеитюе 
зпаковое изображение 


F 32-битное многока- 
нальное изображение с 
плазающей точкой 


32-битное многока- 
HanbHoe изображение с 
плазающей точкой 


| Огномерный сигнал 


Числозой параметр scalar Her 


р 


Нет Любое 


Нет Любое 


Нет Любое 


Ir 
® 
3 
т | 
ә 
= 


2.7.2. Базовые средства просмотра и анализа изображений и видеопоследо- 
вательностей. Работа с нзображением в системе Pisoft реализована в виде спецн- 
ализнрованного программного компонента, имеющего вид, показанный на рис. 2.7.6. 
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Компонент имеет кнопочную панель инструментов, средства просмотра и анализа 
изображения и статусную строку. 

В статусной строке показываются: 

® текущие координаты курсора; 

® текущий масштаб изображения; 

e значення RGB пиксела, в котором находится курсор. 

© ниформация. зависящая от текущего средства анализа изображений. 


DELETE. nomre > 


EJ o [ра насрин | O Paten | ©, aman | Ay Pa | XH] O Sataa | Ж n | 


679.20 :11 0 1 Kw li 


Рис. 2.7.6. Общий зид компоиеита работы c изобаженнем 
Кнопка | я включает/выключает HHCTDy менты просмотра н анализа изображе- 


Кнопка * включает/выключает просмотр векторной графики в средствах npo- 
смотра н анализа изображений. Когда кнопка выключена, вся графика выводится 
только в окно таре. 


ET у 
Кнопки [m s предназначены для включения/выключения просмотра Co- 
ответствующнх цветовых каналов. Если изображенне монохромное илн HNeeT один 
канал, то все цветовые каналы одннаковые. 

В компоненте реализованы следующие режнмы просмотра нзображений. 


LOS 
Увеличение изображения. Режни включается кнопкой ©, панелн инструментов. 
В этом режиме npH нажатии левой клавяшн мыши B области изображения масштаб 
изображения увеличивается в 2 раза. При этом изображение центрнруется в соот- 
BeTCTBHH C коордннатамн точки, в которой произведено нажатие. Кратковременное 
включенне оежниа может быть гронзведено также клавишей Ctrl без нспользования 


панели инструментов. © 
Уменьшение изображения. Режим включается кнопкой панели ниструмен- 
тов. В этом режиме при нажатии левой клавиши мыши в области изображения Mac- 
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штаб изображения уменьшается в 2 раза. Прн этом изображеине центрнруется B co- 
ответствин C кооздинатамн точки, в которой гроизведено нажатие. Кратковременное 
включение режима может быть произведено также клавишей Alt без использования 


панели инструментов. e 

Передвижение no изображению. Режим включается кнопкой панелни инстру- 
ментов. В этом режиме при нажатин левой клавиши мыши в области изображения, 
изображение центрируется в соответствии с координатами точки. в которой произве- 
дено нажатие. Кратковременное включение режима может быть произведено также 
клавишей Shift без использования панели инструментов. 

В компоненте имеются следующие инструменты просмотра H анализа изображе- 
ний. 

Изображение (Image). Окно Image является окном «no умолчанию». В нем можно 
просматривать изображение H векторную графику, если выключены остальные HH- 
струменты просмотра. 

Гистограмма (Histogram). Данное средство служит для просмотра M анализа 
гистограммы изображений (рис. 2.7.7). Построение гистограммы производится внутри 
прямоугольной области, задаваемой пользователем. По умолчанию размеры области 
совпадают с размерами изображення, Цвет гистограммы (красный, зеленый, синий) 
соответствует цветовому каналу (R,G, B). 


Рис.2.7.7. Cpencrso построения и анализа гистограммы 


При движенин курсора внутри области построения гистограммы значения пиксела 
отображаются на графике гнстограммы в виде вертикальных лиинй. При движенни 
курсора по графику гистограммы соответствующие значеиня гистограммы отобража- 
ются в статусной строке. 
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Данное средство позволяет осуществлять пороговую сегментацию изображения. 
Пороговая сегментация включается кнопкой Thresholding. При этом для каждого ка- 
нала можно задать нижний (Low) u верхний (High) пороги яркости. которые также 
отображаются на графике гистограммы в виде круговых меток. Еслн Low < High, то 
слой яркости между Low и High выводится na нзображении. Если для какого-либо 
канала задано Low > High, то результат сегментацин для данного канала He выводит- 
ся. Результат сегментации выводится для каждого канала илн в виде бннарной маски 
(при включенной опцин Binary mask), или в виде яркостиой маски, в которой яркости 
взяты из исходного изображеиня. 

Также реализован метод бннаризации по методу Отсу, который включается опцией 
Otsu. При этом значеине Low в каждом канале принимает значение соответствующего 
порога по Отсу. 


Рис. 2.7.8. Средство построения и анализа проекций 


Вертикальная и горизонтальная проекции (Projection). Данное средство служит 
для просмотра и анализа проекций изображения (рис. 2.7.8). Построение проекций 
производится внутри прямоугольной областни, задаваемой пользователем. По умолча- 
нкю размеры области совпадают C размерамн изображения. Цвет проекций (красный, 
зеленый, синий) соответствует цветовому каналу (К, С, B). 

Прн движении курсора по графику проекцин соответствующие значения проекции 
отображаются в статусной строке. 

Апертура (Aperture). Апертура (рис. 2.7.9) предназначена для одновременного 
просмотра исходного н увеличенного изображения. Увеличенное изображение цен- 
трируется в текущих координатах курсора. При достаточном увеличеннн Ha апертуре 
также выводятся численные значення яркостн пикселов. 
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Рис.2.7.10. Средство построения и анализа профилей 
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Вертикальный и горизонтальный профили (Х ҮРго[іе). Данное средство слу- 
жит для просмотра и анализа профилей изображения (puc. 2.7.10). Профилн строятся 
по строке и столбцу изображения, где находится курсор. Построение профилей про- 
изводится внутри вндимой области изображения. Цвет профиля (красный. зеленый, 
синий) соответствует цветовому каналу (В,С, В). 

При движении курсора по графику профиля соответствующие значения профиля 
отображаются в статусной строке. 

Профиль вдоль произвольной кривой (Profile). Данное средство служит для про- 
смотра н анализа профиля изображения вдоль произвольной кривой (puc. 2.7.11). Цвет 
профиля (красный, зеленый, синий) соответствует цветовому каналу (В.С, B). 

При движении курсора по графику профиля соответствующие значения профиля 
отображаются B статусной строке. При движении курсора по профилю (это можно 
сделать при двукратном увеличенни) местоположение курсора показывается на гра- 
фнке вертикальной лннней. 

Поверхность функции яркости (Surjace). Данное средство служит для просмот- 
ра фрагмента изображения в виде трехмерной поверхности (рис. 2.7.12). Фрагмент 
задается пользователем в виде прямоугольника. Используется следующая система ко- 
ординат: оси X, У соответствуют осям х,у изображения, ось Z соответствует яркости 
изображения как функции or (x,y). Изображенне поверхности может формироваться 
одним из четырех методов, задаваемых в выпадающем списке: 

Fill — однородный цвет поверхности; 

Frame — поверхность в виде сетки (без удалення невидимых граней); 

Ітаре — для цвета каждого участка поверхности используется яркость соответ- 
ствующего пиксела изобра ження; 

Light — освещение поверхности точечным источником света. 


pomere " = -— е -— и e 
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Рис. 2.7.11. Средство построения и акализа профиля вдоль произвол ной кривой 
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Рис. 2.7.13. Средство для табличных преобразований яркостн 
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Puc. 2.7.14. Пример задания табличиого преобразования яркостн 


Для просмотра поверхностн нмеются следующие средства: 


e вращенне системы координат — кнопки ` 
e расшнренне/сужение угла зрения — кнопки ав. 


e песемешенне вдоль направления «взгляда» (приближение, отдаление) — кнопкн 


Табличные преобразования яркости (LUT). Данное средство нспользует таблицу 
преобразования яркости (Look Up Table) для просмотра изображення. Функция npe- 
образования показывается в виде графика. Реализованы следующие преобразования: 

Linear — линейное преобразование яркости; 

Negative — обратное преобразование яркости 
(инверсия изображения); 

Equalize — эквализация изображення. 

Custom — преобразование, задаваемое пользо- 
вателем. 

Эквализация предназначена для просмотра ма- 
локонтрастных H практически невидимых деталей 
на изображении. Эквализация изображения пред- 
ставляет собой такое преобразование яркостн, NO- 
сле которого гистограмма изображения нмеет ров- 
ный вид, T. e. все ячейки гистограммы имеют одина- 
ковые значення. Гистограмма стронтся по выделен- 
ному пользователем фрагменту, а полученное таб: 
личное преобразование применяется ко всему H306- 
раженню. 

В режиме Custom пользователь может прямо на 
графике с помощью мыши ввести необходимую за- 
BHCHNOCTb яркостн (рис. 2.7.14). 

Кроме перечисленных средств компонента 
«Изображение», к базовым средствам работы c 
изображениямн относятся следующие. 

Фрейм Conver! преобразования формата (рис. 2.7.15) (закладка «Разное») осу: 
ществляет преобразование формата внутреннего представлейня пикселов изображе- 
ния, например Байт -» Вещественное, Целое (32 bit) — Целое (16 bit) н т. д. См. 
список фреймов в приложенин. 


Рис. 2.7.15. Меню фрейма Convert 
преобразовання формата нзображення 
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Использование фрейма Convert рассмотрено в примерах раздела 3.5 (puc. 3.6.36). 

Фреймы, позволяющие загружать отдельное изображение илн вндеопоследова- 
тельностн, находятся в закладке «Источник данных». 

Фрейм Im Import (рис. 2.7.16) дает возможность загружать одиночные изображе- 
ния (пункт меню «Импорт одного изображення») или последовательность Ытр- файлов 
(пункт меню «Пакетный импорт»). 

Бывает очень полезно сохранять изображеиня, получившиеся в результате Bbl- 
полнення обработок (результнрующие изображения). По нажатию на кнопку Bbl- 
ходных связей фрейма (рис. 2.7.16) нз выпадающего контекстного меню «Сохранить 
как» можно сохранять результаты обработки нзображения для большинства фреймов. 


Tav. Coupes, c 


Рис. 2.7.16. Контекстное меню сохранения выходного нзображення по нажатию на кнопку выходных 
связей фрейма 


С помощью фрейма Avilmp (рис. 2.7.17) можно загружать а\!-видеоролики. а 
фрейм AviSave позволяет конвертировать последовательность Ьтр-файлов в видео 
формата avi. 

Рассмотрим использование синхроснгналов на примере обработки видеопотока, 
загруженного во фрейм Avilmp. Для корректного отображения результатов обработ- 
кн вндеопоследовательностн нногда необходнмо, чтобы каждый следующий кадр по- 
ступал во фреймы обработки после окончания обработки предыдущего кадра. Для 
этого используется управление уведомленнямн. В схеме выбираем фреймы, ожидаю- 
щие поступления снихросигналов, н фреймы, формирующие снихросигналы. В меню 
этих фреймов выбираем пункт «Уведомление» и для ожидающих поступлення CHH- 
хроснгналов устанавливаем «Вход», а для формирующих синхросигналы — «Выход». 
Соединяем связью вход H выход. На рис, 2.7.17 фрейм Avilmp ожидает поступления 
синхросигналов, а фрейм RCorr формирует синхроснгнал, 


Рис. 2.7.17. Прнмер нспользоваиня синхросигналов — связь, протянутая нз выхода последнего фрей- 
ма RCorr корреляцнн на фрейм Avilmp загрузкн вндео в формате avi 


2.7.3. Алгебра изображений. Фреймовый состав закладки «Алгебра» дает Bo3- 
можность производить алгебранческне операции над H30ÓpaxeHHRNH — сложение, 
вычитание, умножение, побитовые операцин. 

Фрейм ALU операций над двумя изображениями производит попиксельные опера- 
цин над двумя изображеннямн следующим образом: 


In3iz,y] = Inil[r,y] ор Im2[z, y], 
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гле Iml, 12 — входные изображения, IM3 — выходное изображение, ор — одна из 
операций. выбираемых через мепю фрейма. 

В практических запятнях в третьей главе рассмотрены несколько примеров HC- 
пользования этого фрейма. Например, в разделах морфология (бинарная морфология) 
(рис. 6.5.1), линейная фильтрация (рис. 3.6.30) и других. 

На рис. 2.7.18 представлена схема, нллюстрирующая применение операции «Hc- 
ключающее ИЛИ», являющейся апалогом сложения по модулю 2. 

Во фрейм Im Import загружено исходное изображение (окно слева). обработанное 
операцией «Подчеркиванне краев» по маске 3 x З (меню фрейма Сопу). Результат — в 
центральном окпе. В окне справа — изображение, полученное в результате сравнения 
операцией «Исключающее ИЛИ» двух изображений — исходного и отфильтровапного 
операцией «Подчеркявание краев». 

Фрейм Mono унарной алгебры позволяет производить алгебранческие операцин с 
одним изображением. Работа с фреймом (puc. 3.6.16 описана в практических занятиях 
в третьей главе в разделе «наложение шума». 
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Рис.2.7.18. Опезация «Подчеркнванне краез» 10 маске 3 x 3 H сравненне нзображеннй операцн- 
ей «Исключающее ИЛИ». Окна изображеннӣ слева направо: исходное изображение; изображение, 
обработанное оператором подчеркивания краев, результат сравнения двух нзображений операцией 
*Исключающее ИЛИ» 


Еше однн полезный фрейм закладки «Алгебра» — фрейм ІтМах поиска локаль- 
ных максимумов осуществляет поиск локальных максимумов на изображении нили 
одномерном сигнале в области заданного размера. При вызове пункта меню «Локаль- 
ные максимумы» (рис. 2.7.19) появляется дналог (рис. 2.7.20). В окне дналоге следует 
задать размеры апертуры — областн. внутри которой будут вычисляться локальные 
максниумы. H определить количество нскомых максимумов. 
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Применение фрейма Іт Мах описано в практических занятиях исследования Npe- 
образования Хафа в разделе 5.7. 
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Рис. 2.7.19. Menio фрей- Puc. 2.7.20. Окна диалога фрейма Іт Мах 
Mà lmMax поиска so- поиска локальиых максимумов 
кальных максимумов 


2.7.4. Геометрические преобразования изображений. На закладке «Геомет- 
ркя» представлен набор фреймов, реализующий различные геометрические преобра- 
зования над изображениями, в т.ч. аффинное н перспективное. 

Также операции геометрических преобразований реализованы во фреймах Trnsí2, 1 
н Trnsf1 1, находящихся в закладке «Пнсофт 8.0». 

На рис. 2.7.21 н рис. 2.7.22 показаны схемы. реализующие аффинное н ортогональ- 
ное преобразования с осуществленнем привязки точек первого изображения к соот- 
ветствующим точкам второго. В два фрейма Import! и Import2 источников данных 
загружены изображення (окна слева H центральное), повернутые на 90° друг отно- 
сительно друга. Расставим на каждом нзображенин no 3 маркера, по которым фрейм 
Trnsí2..1 произведет привязку. Результируюшие изображения выведены в правые ok- 
на (рис. 2.7.21 и рис. 2.7.22). Заметим, uro в окне диалога Information (рис. 2.7.22) 
значение параметра FlRad угла взанмного положеиня изображений равен 1,566, что 
подтверждает, что изображения повернуты друг относительно друга на 90°. 

Фрейм RTransí производит пронзвольное резиновое преобразование над изобра- 
женнем. На исходном изображении необходимо задать нужное количество векторов 
(не менее одного), в окрестности которых произойдет резиновая деформация таким 
образом, что точки начала каждого вектора будут перемещены в конечные точки CO- 
ответствующих векторов, à пикселы в окрестности векторов будут перемещены (ne- 
ресчитаны) согласно формуле, моделирующей характер резиновых искажений. 

На исходное изображение в окне слева (рис. 2.7.23) нанесены два вектора B на- 
правлении слева направо и навстречу друг другу. Фрейм ВТгапзЙ реализует преобра- 
30BaHHe в направлении заданных векторов (изображенне в центре), а фрейм RTransf2, 
в котором выбран пункт меню «Инверсия» (рис. 2.7.23), выполняет преобразованне в 
направлениях, противоположных заданным, т.е. для каждого вектора в направлении 
из конечной точки в его начало. Полученное изображение помещено в окно справа. 
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Рис. 2.7.21, Аффиизое преобразование. Привязка точек первого нзображения к соответствующим 


точкам второго. В двух первых окнах слева направо находятся исходные нзображения. В третьем 
окне — результат 
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Рис. 2.7.22. Ортогогальное преобразование. Прнвизка точек первого изображения к соответству- 


ющим точкам второго. В двух первых окнах слева направо находятся исходные изображення. В 
третьем окие — результат 
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Рис. 2.7.23. Резиновое преобразозание. Окна изображений слева направо: исходиое изображение c 
начесенными векторами, вдоль которых происходит преобразование: трансформированиое изображе. 


ние вдоль заданных векторов: трапсформированное изображение вдоль направлений иротивополож: 
ных заданным 


Еще один полезный фрейм в заклалке «Геометрия» — фрейм Frag вырезки фраг: 
мента изображения (рис. 2.7.24) позволяет с помощью мышн вырезать прямоугольный 
фрагмент загруженного изображення. указывая левый верхинӣ н пргвый инжний yr- 
лы прямоугольника. В математнческом плане. кроме вырезки фрагмента, эта операция 
позволяет моделировать сдвиг в плоскости изображения. 
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Рис. 2.7.24. Меню фрейма Frag вырезки фрагмента изображения 


ГЛАВА 3 


ОБРАБОТКА ИЗОБРАЖЕНИЙ 


Данная глава посвящена методам обработки изображений. При этом под обработкой 
изображений в узком смысле понимается такая «низкоуровневая» обработка изобра- 
жения. результатом которой также является растровое изображение HIH другой раст- 
ровый объект (например. одномерный массив). 


3.1. Яркость и цвет. Гистограммы, профили, проекции. Бинаризация и 
сегментация 


В главе 2 было подробно показано, что, несмотря на все возможное богатство семан- 
тического. физического н любого другого содержания изображения, само это содержа- 
ние определяется в конце концов только лишь распределеннем HHTeHCHBHOCTH некото- 
рого сигнала по двумерной дискретной плоскости (или набором таких распределений, 
еслн изображение имеет несколько таких «цветовых». «диапазонных», «признаковых» 
или других плоскостей»). При этом каждый пиксел исходного цифрового изображе- 
ния характеризуется тремя, вообще говоря. независимыми величинами — (т,у.Г). где 
пара целочисленных значений (T, у) описывает геометрическое положение данного 
пиксела в плоскости изображения, а величина / характеризует его яркость или UH- 
тенсивность в данной точке плоскости. В соответствии с этим принято различать B 
изображенин его яркостную и геометрическую составляющие. 

Эти составляющие в принципе могут изменяться независимо друг от друга. До- 
пустим, мы на протяжении некоторого времени наблюдаем через окно какую-нибудь 
статическую внешнюю сцену при неизменных условиях освещенности, а затем усло- 
вия освещенности неожиданно меняются. Скажем, солнце зашло за тучу или, наобо- 
рот, вышло из-за облака. При этом мы увидим, что, хотя яркость (среднее значение 
интенсивности сигнала) н контраст изображения (размах значений между минн- 
мальной н максимальной наблюдаемой яркостью) изменились. геометрическая форма 
изображения (то есть положение видимых контуров объектов н областей различной 
яркости) — осталась неизменной. Возможна н обратная ситуация, когда яркостные 
характеристики изображения в среднем не меняются, несмотря на то, что явно на- 
блюдаются изменения формы — например, движение каких-либо частей изображения 
относительно остальных его частей. Отсюда вытекает идея возможного раздельного 
анализа яркости и геометрии изображения. Такое разделение не только облегчает 
разработчику логический анализ задачи, HO H понижает «порядок» изображения как 
предмета обработки с третьего (т,у,/) до второго (r,y) н первого (Г) соответствен- 
но, что, в свою очередь, позволяет экономить время вычислений и требуемый для 
решения задачн объем памяти. 

Особениую привлекательность этой идее на ранних этапах развития обработки 
изображений придавало то, что анализ двумерных полей был сравнительно новой н 
нензведанной задачей, B то время как в области обработки одномерных функций н 
сигналов у математиков н слециалистов в других областях знания был уже накоплен 
значительный опыт. Следовательно, выделив из изображения какой-либо характери- 
зующий его одномерный сигнал. можно было применить для его обработки н анализа 
большое количество уже существующих готовых инструментов. Кроме того, как уже 
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говорилось, обработка одномерных сигналов требует существенно меньшей затраты 
вычислительных ресурсов, что было крайне важно в те времена, когда вычислитель- 
ная техинка еще не была так мощна н совершенна, как сегодня. Да H сегодня актуаль- 
ность 3KOHOMHH вычислительных ресурсов сохраняется во всех тех задачах, которые 
должны решаться системами машинного зрення в реальном масштабе времени. 

Итак, яркостная составляющая изображения действительно характеризуется од- 
номерным массивом гистограммы (частоты встречаемостн на нзображениях nukce- 
лов одинаковой яркостн). Однако геометрические характеристики изображения (=. y) 
по-прежнему требуют для своего описания двумерных данных. Естественно пред- 
положить, что первые нсследователн изображений старались и в этой области найти 
такие характеристики, которые описывалн бы двумерную геометрию изображения при 
помощн некоторых одномерных массивов. И такие полезные способы описания дей- 
ствительно были найдены. Это так называемые «профили» и «проекции» изображения. 
Профнлем изображения вдоль некоторой линин называется функция HHTeHCHBHOCTH 
изобра жения, распределенного вдоль данной линии (лрорезки). Проекцией нзобра- 
жения на некоторую ось (направление) называется интеграл (сумма) HHTeHCHBHOCTH 
пикселов изображения, взятый в направленни, перпендикулярном данной осн. 

Итак, в данной главе мы будем рассматривать основные способы обработки н 
анализа изображений путем сведения двумерных задач к одномерным: построение 
н анализ гистограмм, гистограммную обработку изображений, а также построение н 
использование профилей H проекций изобра ження. 

Еще одно предварктельное замечание, прежде чем мы начнем непосредственно 
разбираться с различными видами H способами обработки н анализа изображений. 
Любая информация об изображенин (а также н любая процедура его обработки) No- 
жет носить глобальный или локальный характер. Глобальной считается информация 
или обработка, относящаяся ко всему изображению в целом. Локальной считается 
информация (илн обработка). относящаяся (применяемая) к некоторой его выделен- 
ной области (фрагменту изображения, некоторой линин, определенному множеству 
точек и T. д. ит. п.). Соответственно, необходимо помнить, что и гистограммы, и про- 
фили, H проекции, рассматриваемые ниже, могут относиться как к изображению в 
целом, так H к определенным его локальным областям. 


3.1.1. Гистограмма н гистограммная обработка изображений. Гистограмма 
характеризует частоту встречаемостн на изображении пикселов одниаковой яркостн. 

Для 8-битного полутонового изображения гистограмма яркости представляет co- 
бой одномерный целочисленный массив из 256 элементов: 


Hist: ID-array |0...255! of unsigned long (32-bit integer). 


Элементы гистограммы Hist[i| содержат целые значення, равные количеству nuk- 
селов изображения, яркость которых равна значению і. Визуально гистограмма обыч- 
но отображается как обычный график одномерной функции. Гистограмма позволяет 
оценить H необходимым образом нзменить яркость изображения, его контраст, пло- 
щадь изображения, которую заиимают светлые, темные н другне яркостные элементы, 
н. наконец, определить, где на плоскости изображения находятся отдельные области 
(объекты), соответствующие тем или иным диапазонам значений яркости. 

Яркостными преобразованиями изображения называются преобразования ABY- 
мерных функций spkocrH, описываемые простой формулой: 

R 


I'(z,y) = f (zy). 


Здесь /(:) — функция отображения яркости, которая никак не 3aBHCHT OT Nono- 
ження пиксела (T.y). Простейшим случаем яркостных преобразований изображения 
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являются линейные преобразования яркости, в которых функция отображения APKC- 
CTH имеет вид 
КГ) 2 al +b, 


где а — коэффициент, определяющий изменение контраста изображения, b — коэф- 
фициент, определяющий изменение средней яркости изображения, / — собственно 
яркость в текущей точке изображения Im[r, у]. Такие линейные преобразования apko- 
CTH называют также фотографическими. так как npH традиционной фотосъемке HX 
можно устанавливать при помощи изменения характеристик выдержки H диафрагмы 
объектива. Возможны н другие функции отобрвжения яркостн. 

Яркостные преобразовання цифровых изображений часто называют гистограмм- 
ными, так как при этом, во-первых, изменяется гистограмма изображення, во-вторых, 
вид функции преобразования (параметры преобразования) часто определяются aðan- 
тивно, на основании ранее собранной гистограммы исходного изображения. 

В случае дискретных цифровых изображений функция отображення яркости при- 
нимает вид так называемой таблицы отображения яркости LUT (Look-Up-Table, 
просмотровой таблицы). Гнстограммная обработка изображения при помощи таблн- 
цы отображення яркости осуществляется следующим образом: 


Im(i,j] = LUT([Im[i, j]], 


rae Im[i,j] — пиксел изображения с координатами (i,J;, а LUT — целочисленный 
массив размера 256 элементов для 8-битного нзображення или длиной 65536 элемен- 
тов для 16-битного изображения. Далее без принципиальной потери общности будем 
рассматривать гистограммную обработку на примере 8-битных полутоновых изобра- 
жений. При этом LUT может задаваться: 

e произвольной таблицей отображения, форинруемой пользователем непосред: 
ственно; 

e некоторой математической функцией, выбранной из заданного набора функций; 

®адаптивно по гистограмме данного анализируемого изображения. 
Пользовательские таблицы отображення позволяют выполнять следующие типовые 
операцик: 

e ручное вырезание определенных днапазонов яркости; 

e ручное вырезанне битовых плоскостей; 

e ручная бинаризация изображения по одному или двум порогам; 

e ручная сегментация нзображения на несколько яркостных диапазонов. 
Стандартные математические функции, используемые для формирования LUT, как 
правило, выделяются из следующего типового набора: 

e Линейное преобразованне; 

® Логарифмическая функция; 

e Экспонента; 

e Квадратичная функция; 

® Квадратный корень; 

e Степенная функция; 

® Обратная степенная функция. 
Известным частным случаем стандартной обработки изображений является инвер- 
тирование яркости, определяемое зависимостью внда 


LUT[i] = 255 - i. 


В результате инвертнрования изображения получается ero негатив. При этом темные 
области становятся светлыми. н наоборот. 
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Другое широко используемое преобразованне — степенной закон вида 
ОТ) = r(ì)”, 


где г — коэффициент контраста, а Y — степень преобразования. Такне преобразовання 
известны в области аналогового телевидения как процедура гамма-коррекции. Легко 
увидеть. что изменяя параметр Y, мы можем получать LUT различного tuna. При y = 
= | преобразование будет линейным, прн y < 1 предпочтение будет отдаваться более 
светлым цветам (на HHX придется большая часть диапазона), при y > 1 предпочтение 
будет отдаваться более темным цветам. Такие преобразовання часто нспользуются для 
«выравнивания» яркости изображений, получаемых на электронно-лучевых трубках 
(ЭЛТ). 

Рассмотрим теперь простейший способ адаптивной (то есть не наперед задан- 
ной, а зависящей от данного конкретного изображения) гистограммной обработкн. 
Начнем c лниейной адаптивной процедуры, называемой яркостной нормализацией 
изображения H описываемой следующей математической зависимостью: 

ы i — Imin 
LUT([i] = 255. я 


max — Лит 
Imn = minIm[z,y]. [пах = maxlm(z, y]. Значення Imin H Imax определяются как ми- 
г.у zy 


нимальный H максимальный номера ненулевых ячеек гистограммы Hist(Im). Данное 
преобразование равномерно «растягивает» диапазон яркостей [5i [мах], присутству- 
ющих на исходном изображении Іт. на максимально возможный диапазон [0,255]. 
Это способствует максимально возможному улучшению контраста изображения без 
потери какнх-либо различий элементов яркости исходного изображення. 

Другой популярной процедурой адаптивной гистограммной обработки нзображе- 
ния является эквализация изображения. Эквализация также отображает реальный 
яркостный диапазон данного нзображення (от ининмального до максимального зна- 
чения интенсивности) на диапазон [0, 255]. При этом обеспечивается «выравнивание» 
числа пикселов изображения, нмеющих рвзличные значення яркости. Матеивтическая 
форма данного преобразования нмеет вид 


Y Hist] 
j=l 
255 3 


D Hist[j] 


je 


LUT[i] = 255 - 


B тех случаях, когда в диапазоне [[мш,/тах) более илн менее равномерно присут- 
ствуют все градации, визуальный эффект от эквализации трудно отличить от эф- 
фекта нормализацин. Однако в случае, когда значительная часть градаций яркости 
отсутствует, эквализация позволяет более равномерно использовать днапазон [0,255] 
для более контрастного отображення присутствующих на изображенин градаций. Bu- 
зуально это выглядит как «проявление» большего количества ранее не заметных на 
нзобрвжении деталей H контуров. 

В заключение этого краткого введения в гнстограммную обработку H анализ H306- 
ражений необходимо отметить, что нанболее общей смысловой единицей анализа гн- 
стограммы является мода. Это понятие, позанмствованное из математической ста- 
THCTHKH, означает максимум (илн «горб») графика гистограммы. Если гистограмма 
имеет одну моду, такая гистограмма называется унимодальной M свидетельствует о 
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яркостной однородности изображення. Бимодальная гистограмма с двумя явно Ha- 
блюдающимися модами, разделенными заметной «впадиной», скорее всего означает, 
что данное изображение содержит заметно отличающиеся друг от друга «светлую» и 
«темную» области, часто называемые «фоном» H «объектом» илн «фоном» H «CHNBO- 
лом». Разделение этнх областей порогом, определяемым по гистограмме, называется 
адаптивной бинаризацией изображения. Наконеи, если на гистограмме наблюда- 
ется несколько мод, такая гистограмма называется мультимодальной, и ее анализ 
осуществляется более сложными методами. 


3.1.2. Бинаризация полутоновых изображений. В обработке изображений ua- 
сто используется процедура «пороговой бинаризации» — разбиение изображения на 
две области, одна из которых содержит все пикселы со значением ниже некоторого 
порога. а другая содержит все пикселы со значением выше этого порога. 

Алгоритмы адаптивной бинаризацин изображений базируются на использовании 
локальной или глобальной гистограммы изображения [20]. Подход, основанный на 
использовании гистограммы яркостей пикселов, является одним из самых известных 
H, безусловно, наиболее простым. 

Оптимальная пороговая сегментация основана на приближенни гистограммы H306- 
ражения к некоторой кривой с использованием весовых сумм двух или более Be- 
роятностей интенсивности с нормальным распределеннем. Тогда порог — это набор 
ближайших уровней яркости, соответствующих минимуму вероятности между макси- 
мумами двух или более нормальных распределений. 


и: o 


acmpegeseune 
d >. 


Рис. 3.1.1. Уровни яркости гистограммы аппроксимируются двумя пормальтыми распределенкями: 
а — функции распределения объекта и фопа; б — соответствующие гистограммы и оптимальный 
порог 


Для определения оптимального порога бннаризацин предложено большое колн- 
чество различных подходов. Наиболее удачным H3 них представляется подход Otsu 
[230], который предполагает не только определение оптимального порога бинариза- 
UHH, но H вычисление некоторого критерия бимодальностн, то есть оценку того, дей- 
ствительно ли исследуемая гистогрвмма содержит именно две моды (два выраженных 
пикв). Идея данного подхода заключается в следующем. 

Пусть изображение представляет собой двумерный массив lm размера X x 
x Y, причем его элементы (пикселы) принимают целочисленные значения на отрез- 
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ке [0.255]. Тогда гистограмма этого изображения представляет собой одномерный 
массив Hist|0...255], в каждой ячейке которого Hist[i] содержится число пиксе- 
лов изображения, нмеющих значение. равное i. Рассмотрим теперь «подгистограм- 
му» НБА... 1]. 0 < << 255. Для любой такой подгистограммы (окна) [k,l] можно 
вычислить оценку днсперсни яркости DISP(k.1). 

Пусть дан порог t: O < t < 255. Для него можно вычислить «критерий раздели- 
мости» SC вида 

DISP(0, t) + 015р( + 1,255) 

DISP(0.255) 


Крнтерий SC(t) всегда принимает значение на отрезке [0,1], причем значенне его тем 
больше, чем лучше разделимость яркостного распределения на два класса относитель- 
но порога t. Алгоритм Отсу предполагает вычисление SC(t) для всех t Е (0,...,255), 
после чего оптимальный порог Отсу определяется как 


T = argmax $С(#). (3.1.2) 
te (0.....255) 


SC(t) = 1 (3.1.1) 


Этот алгоритм нмеет ясный статистический смысл и, как показывает практика, AB- 
ляется эффективным и устойчивым способом определения адаптивного порогв для 
бинаризации бнмодальных изображений. 


3.1.3. Сегментация многомодальных изображений. Специально разработанный 
для данного класса задач, метод статистического выделения мод позволяет оценивать 
количество и степень вырвженности мод 
гистограммы, опираясь на соответствую- 
щий график статистической производной 
(функции локальной разделимости), пред- 
ставляющий собой график значений кри- 
терня Отсу, вычисляемых в локальном 
скользящем окне, согласованном по ширине 
с ожидаемой шириной моды гистограммы 
(ркс. 3.1.2). 

Другой способ автоматического выде- 
ления мод гистограммы основывается на 
непосредственной оптнмизацни глобально- 
го критерия разделимости на п > 1 мод, 
подобного kpuTepuio бнмодальной раздели- 
мостн Отсу. Введем (л + 1)-мерный вектор 
t = (%0,....12), где to = 0, tbn = 255. tis... t4 1 — свободные переменные, COOTBeTCTBy- 
ющие порогам, разделяющим моды гистограммы. Тогда среднеквадратичный критерий 
оптимального выбора порогов сегментации будет иметь следующий вид: 


Рис.3.1.2. Пример автоматического разделе. 
ния мод па гистограмме по максимумам функ- 
ции локальной разделимости 


в--1 


Y. DISP(t, t.) > min(ti ists). 
150 


Поскольку гистограмма — одномерный массив. эта задача однозначно решается Me- 
тодом динамического программирования [5]. В результате определяется такой набор 
порогов сегментации. который обеспечиввет иннимальное среднеквадратичное откло- 
нение сегментированного на п уровней нзображения от исходного. 

На рис. 3.1.3 приводится пример автоматической гистограммной сегментации H306- 
ражения при автоматическом оптимальном выделенин набора порогов при заданном 
оптнивльном числе мод гистограммы. 
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Если число мод гистограммы заранее нензвестно, то задача гистограммной сегмен- 
тацин является, вообще говоря, некорректной no Адамару н требует регуляризацич 
[42]. В качестве регуляризованного критерия можно применить. например. следующий 
критерий, одновременно штрафующий и суммарное среднеквадратичное отклонение 
сегментироваи ного изображения OT исходного, H число выделяемых при сегментации 
мод: 


n-i 
Y DISP(t. бл) + an — min(n.t.... 0-1). 


1=0 


Рис. 3.1.3. Пример автоматической гистограммной сегментации изображения: а — при выделении 10 
мод гистограммы; 6 — при выделении 5 мол гистограммы: в — при выделении З мод гистограммы: 
г — при выделении 2 мод гистограммы 


При фиксированном значении регуляризнрующего параметра с соответствующая про- 
цедура дипамического программировання автоматически определяет оптимальное чис- 
ло мод п и одновременко — соответствующий оптимальный набор порогов. Однвко 
выбор регуляризирую:цего параметра х также является некой эвристической проце- 
дурой, и потому в практических задачах проще оказывается выбирать число мод 
гнстограммы. 


3.1.4. Обработка цветных изображений. В главе 2 мы уже писали о том, 
что цветные цифровые изображения представляют собой совокупность трех цветовых 
плоскостей, каждая из которых характеризует одну независимую составляющую цве- 
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та, представленную в том же формате, что н обычное 8-битное полутоновое изображе- 
ние. Следовательно, все описанные процедуры обработки полутоновых нзображений 
в яркостной области могут быть обобщены и на 
случай обработки цветных изображений. Специфи- 
ка же здесь связана прежде всего с различными 
цветовыми моделями, позволяющими по-разному 
работать C разнымн цветовыми H другими состав- 
ляющимн изображения. 

Назначение цветовой моделн — дать средства 
описания цвета в пределах некоторого цветового 
охвата. Нанболее часто в компьютерном зрении HKC- 
пользуются модели RGB, СМУ, YUV, YCbCr, HSV. 

Цветовая модель RGB. RGB (Red, Green, 
Blue — красный, зеленый, синий) — аппаратно- 
орнентированная модель, нспользуемая в диспле- 
ях для аддитивного формирования оттенков camo- Рис. 3.1.4. Цветовая модель RGB 
светящихся объектов (пикселов экрана). Система 
координат ВСВ — куб с началом отсчета (0,0,0), соответствующим черному цве- 
ту (рис. 3.1.4). Максимальное значение ВОВ — (255,255,255) соответствует бело- 
му цвету. В модели RGB не разделены яркостная H оттеночная компоненты цвета, 
здесь легко указать яркости для одного из основных цветов, но затруднительно ука- 
зать оттенок с требуемым цветовым тоном (например, телесным) H насыщенностью. 

Цветовая модель HSV. Цветовая модель 
HSV (Hue, Saturation, Value — цветовой тон, 
насыщенность, мера яркости) — модель, ори- 
ентированная на человека н обеспечивающая 
возможность явного задання требуемого oT- 
тенка цвета. Среди прочих используемых B 
настоящее время моделей, эта модель отрг- 
жает физические свойства цвета и наиболее 
точно соответствует способу восприятия UBE- 
та человеческим глазом. Оттенок цвета (Н) 
ассоциируется в человеческом сознании с обу- 
словленностью окраскн предмета определен- 
ным типом пигмента, краски, красителя. Co- 
ставляющая Н — это длина световой вол- 
ны, отраженной или прошедшей через объект. 
Данная составляющая является объективной 
н отражает физическую сущность цвета. Ha- 
сыщенность (S) характеризует степень, силу, 
уровень выраження оттенка цвета. Этот ат- 
рибут в человеческом сознанин связан с ko- Рис. 3.1.5. Цветовая модель HSV 
личеством (концентрацией) пигмента, краски, 
красителя. Насыщенность позволяет оценить, насколько «глубоким» и «чистым» яв- 
ляется данный цвет, то есть как он отличается от ахроматнческого. Она определяет 
соотношение серого цвета H выбрвнного оттенка H выражается в долях от 0 (серый) 
до 1 (полностью нвсыщенный). Мера яркости (V) харвктеризует относительную осве- 
щенность HJIH затемненность цвета (интенсивность цвета), поэтому она измеряется B 
днапазоне от 0 (черный) до 1 (белый). При увеличении яркостн цвет становится более 
светлым (белым). Составляющая V является нелинейной, что близко соответствует 
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восприятию человеком светлых H темных цветов. Две последние составляющие ABNA- 
ются субъективно определяемымн, так как отражают психологические особенности 
восприятия цвета, 

Подпространство, определяемое данной моделью, соответствует проекции цветово- 
го пространства на главную днагональ КС В-куба в направлении от белого к черному 
н являет собой перевернутый шестнгранный конус (puc. 3.1.5). По вертнкальной осн 
конуса задается У — мера яркости. Значенню V = 0 соответствует вершина конуса, 
значению V = 1 — основание конуса; цвета при этом нанболее интенсивны. Цветовой 
тон Н задается углом, отсчитываемым вокруг вертикальной осн. В частности, 0° — 
чистый красный цвет (Red), 60° — желтый (Yellow), 120° — зеленый (Green), 180° — 
голубой (Cyan), 240° — синий (Blue), 300° — пурпурный (Magenta), то есть дополни- 
тельные цвета расположены друг против друга (отличаются на 180°). Насыщенность 
$ определяет, насколько близок цвет к «чистому» пигменту н меняется от 0 на вертн- 
кальной осн V до l на боковых гранях шестигранного конуса. Точка У = 0, в которой 
находится вершина конуса, соответствует черному цвету. Значение 5 прн этом может 
быть любым в диапазоне 0-1. Точка с координатгин У = 1, $ = 0 — центр ocHoBa- 
ния конуса, соответствует белому цвету. Промежуточные значения коордннаты V при 
$ =0, то есть на оси конуса, соответствуют серым цветам. Если S = 0, то значение 
оттенка Н считается неопределенным. 

Цветовая модель HSV может быть получена из моделн RGB следующим образом: 


1 (В — E А 
ài азе (и) нон, иво, 


VIR = G)? + (R — B)(G — В) 360° -H,, ИВ>С, 


max (R, G, B) — min (R,G,B) y= тах (R, G, B) 
max(R,G,B) КОСТИ 


Данное преобразование является нелинейным, что затрудняет его практическое HC- 
пользование. Аппроксимация преобразования линейными завнсимостямн существен- 
но упрощает алгоритм перевода нз RGB в HSV н обеспечивает высокую вычислитель- 
ную эффективность. Цветовая модель HSV является нанболее удобным представле- 
ннем цветных нзображений для их цветовой сегментации. 

Цветовая модель YUV. Остановимся также на цветовом пространстве YUV, ко- 
Topoe широко применяется в телевещании H соответственно пришло на компьютер 
вместе с МРЕС-форматом. Дело в том, что глаз человека нанболее чувствителен к 
яркости изображения H несколько менее — к цветности. 

Если аддитивные составляющие RGB-curuana представить в виде яркости (Y) к 
двух различных составляющих сигнала цветности (U н V) по формулам 


Y = 0.299R + 0,5876 + 0, 114B, 
U —0,493(B — Y), 
V = 0, &77(В — Y), 


то U в таком соотношенни выражает различия между синей н желтой составляющи- 
мн цветного изображения, a V — между красной H зеленой компонентами цветного 
изображения. Известно, что глаз человека легче различает градации яркости н оттен- 
KH зеленого, поэтому Ц н V можно отображать с меньшей точностью, что способно 
существенно уменьшить количество информации, сохраняемой прн сжатин. Таким 
образом, используя особенности человеческого зрения, еще до того, как будет npu- 
меняться компрессия данных, мы можем получить вынгрыш только за счет перехода 


S= 
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к другому цветовому пространству. Поэтому, когда говорят, например, что сжатие в 
MPEG осуществляется с коэффициентом 100 : 1 н более. часто забывают, что часть 
информации была «потеряна» уже прн переходе к другому цветовому пространству. 

Формат кодировання YUV 4:1:1 отличается от 4:2:2 способом дискретиза- 
цин сигнала, которая вычисляется для конкретного канала как произведение базовой 
Частоты цифрового кодировання на соответствующий коэффициент: например, на 4 
отсчета для канала Y берется по одному отсчету для каждого H3 цветоразностных 
каналов. 

Цветовая сегментация изображения. Цветовая сегментация обычно производнт- 
ся по предварительно построенной моделн распределения цвета искомого объекта в 
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Рис, 3.1.6. Взаимное соотношение компо- Рис. 3.1.7. Взаимное соотношенне компо- 
нент Ни $ на изображениях кожи нент H и V иа изображеннях кожи 


цветовом пространстве HSV. Рассмотрим работу процедуры подобного рода на npu- 
мере задачи сегментации на изображенин лица человека на основе цветовых харак- 
TepHCTHK Человеческой кожн. 

Построенне модели рассматривается как задача понска группы кластеров, соот- 
ветствующих оттенкам кожн. Структура н параметры модели формируются путем 
обработки изображений участков кожни, выделенных вручную. Распределение, отра- 
жающее соотношение параметров цвета Н н $, получено в данном примере в резуль- 
тате обработки порядка 900 изображений фрагментов кожи размерами 3 х 3 пиксела 
(puc. 3.1.6). 

Как видно, «трубки» распределений (Н, S) н (Н, V), характеризующие оттенкн KO- 
жн, являются достаточно компактными в цветовом пространстве н составляют группу 
первичных признаков на этапе построения модели. «Трубки» распределений (Н, S) н 
(H, У) могут быть разделены на подобластн, образующие группы кластеров (компакт- 
ных множеств точек). На этапе сегментацин каждому пикселу нзображення ставится 
в соответствие вектор параметров цвета (H,S, V) н проверяется принадлежность па- 
раметров цвета к одному нз кластеров модели кожи. Область нзображения кожн фор- 
мируется из пикселов, параметры которых вошли в один H3 кластеров. На puc. 3.1.8- 
3.1.10 приведены результаты работы алгоритма цветовой пиксельной сегментации лиц 
с различнымн оттенками кожн. 

Аналогичным образом получено распределенне, отражаюшее соотношение napa- 
метров цвета H и V (puc. 3.1.7). 

После того как на изображении выделены пикселы, цвет которых соответствует 
оттенкам кожн, производится слиянне выделенных пикселов в систему кластеров по 
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Рис. 3.1.8. Приме 
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Рис. 3.1.10. Прамер цветовой пиксельной сегмент м кож 


Рис. 3.1.11. Пример работы алгоритма обнаружения лац 
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мере близости ux местоположения. Далее производится комплексная проверка класте- 
ров для выявления кластеров, действительно являющихся лнцамн. Правило, которому 
должен отвечать фрагмент изображення, на котором присутствует лицо. достаточно 
очевидно: лицо обычно должно быть симметрично относительно вертикальной осн. 
Ha рис. 3.1.11 показан пример работы алгоритма обнаружения лиц на цветных H306- 
раженнях. Фрагменты изображения с обнаруженными лицами выделены рамкой. 


3.1.5. Профиль вдоль лнини и анализ профиля. Профилем изображения вдоль 
некоторой линин называется функция интенсивности изображения, распределенного 
вдоль данной линии (npopesku). 

Простейшим случаем профиля являются профиль строки изображения 


Profiley [z] = hin[z, Y ], 
где Y — номер строки изображения Im, и профиль столбца изображения 
Profilex [y] = lin[X, y], 


где X — номер столбца. 
В общем случае может рассматриваться профиль изображения вдоль любой Npa- 
мой, ломаной илн кривой линии, пересекающей изображенне. 


о 60 0 120 6 20 020 


Рис. 3.1.12. Пример профиля изображения штрихового кода 


После того как массив профиля изображения вдоль заданной ликин сформирован, 
его анализ осуществляется стандартными средствамн и позволяет автоматически Bbl- 
делять различного рода особые точки функции профиля, соответствующие контурам 
изображения, пересекаемым данной линией. 

На рис. 3.1.12 показак пример профиля изображения штрихового кода, взятого 
вдоль прямой линин, пересекающей штриховой код в продольном направлении. По- 
скольку метод кодирования снгнала в штриховых кодах как раз н заключается в 
определенной последовательностн чередования штрихов H пробелов различной шн- 
рины, данный профиль изображення содержит всю необходимую ниформацию для 
того, чтобы считать штриховой код. На профиле хорошо заметны «толстые» H «TOH- 
кие» штрихн кода, а также положения начала H конца штриховой последовательности 
(границы объекта). 
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3.1.6. Проекция и анализ проекции. //роекцией изображения на некоторую ось 
(направление) называется интеграл (сумма) интенсивности пикселов изображения, 
взятый в направлении, перпендикулярном данной оси. 

Простейшим случаем проекции двумерного изображения являются: 

1) вертикальная проекция на ось X, представляющая собой сумму интенсивностей 
пикселов, подсчитанную NO столбцам изображения: 


DimY- 1 
Proj y [1] = у. Im[z. y]: 


у=0 


2) горизонтальная проекция на ось Y, представляющая собой сумму HHTeHCHBHO- 
стей пикселов, подсчитанную no строкам изображения: 


DimX -1 
Ргоју [=] = у П.у]. 


r-0 


B общем случае может рассматриваться проекция изображения на любую npo- 
извольную ось. Пусть направление оси задано единичным вектором C координатами 
(ex. cy). Тогда проекция изображения на ось Ё будет определяться выражением 


Proj,.[t] = os lin[z, y]. 


(z.y):re, уе mt 


После того как массив проекцин сформирован, его анализ осуществляется стан- 
дартными средствами и позволяет автоматически выделять особые точки функцин 
проекцин, соответствующие вертикальным нлн горизонтальным контурам различных 
объектов, присутствующих на нзображении. Следует отметить, что свойства, выде- 
ляемые с помощью анализа профиля изображения, носят локальный характер и 
характеризуют только ту линию изображения, вдоль которой берется профиль, н ее 
небольшую окрестность. В то же время, свойства. выделяемые путем анализа проек- 
цин всего изображения или какой-либо его области, носят глобсльный характер и 
относятся ко всему изображению (всей анализнруемой области) в целом. B частности, 
если на изображении наблюдается несколько контрастных объектов, то в проекции 
будут наблюдаться особенности функции (перепады кли экстремумы функции проек: 
цин), соответствующие положению каждого из наблюдаемых объектов. 
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Рис. 3.1.13. Пример проекции изображеиня машииочитаемого документа 
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На puc. 3.1.13 показан пример вертикальной проекцин изображения машнночитае- 
мого документа (визы). Хорошо заметно, что две машиночитаемые текстовые строкн 
дают два существенных экстремума на расположенном справа от изображения графн- 
ке его горизонтальной проекцин. Такие характерные элементы проекцин могут быть 
использованы, например, для быстрого обнаружения H сегментации на изображении 
текстовых строк в системах автоматического распознавания текста. 


3.1.7. Литература для самостоятельного изучения. В книге (Гонсалес, Вудс) 
[19] обсуждаемым вопросам посвящены разделы 3.2 (градационные преобразования), 
3.3 (видоизменение гистограммы), 10.3 (пороговая обработка) н глава 6 (обработ- 
ка цветных изображений). Описана локальная пороговая обработка. Подробно pac- 
смотрены вопросы He только сегментации, но н обработки цветных изображений — 
сглаживания, выделения контуров, сжатня — в нашем курсе все эти вопросы pac- 
сматриваются только применительно к полутоновым изображениям. Представляют 
интерес соответствующие разделы «Ссылкн н литература для дальнейшего изучения» 
н «Библкографические замечання». 

В книге (Форсайт, Понс) [44] работе с цветом посвящена глава 6. Уделяется Buu- 
мание физике формирования цветных изображений, a также особенностям их воспри- 
ATHA человеком. Обратите внимание на раздел «Примечания», содержащий нитерес- 
ные комментарии H библнографические ссылки. 

В книге (Шапиро, Стокман) [49] пороговой бинаризацин посвящен раздел 3.8, 
работе с гистограммой — раздел 5.2, работе с цветом — глава 6. 


Список источников к разделу 3.1. 

1) Бердж В. Методы рекурсивного программирозания. — М: Машиностроение, 1983. [5] 

2) Тихонов А. Н. Теорня восстановления снгиалов. — M.: Наука. 1983. [42] 

3) Otsu N. А threshold selection method from grsy-level histograms // IEEE Trans. Systems. 
Msn snd Cybernetics. 1979. Vol. SMC-9. №1. [230] 


3.2. Нелинейная фильтрация бинарных и полутоновых изображений 


3.2.1. Задача фильтрации изображений. 

Зашумление изображения. Модели шумов. Выше мы уже писали о том, что 
под задачей «фильтрации изображений» в широком смысле нногда поннмают лю- 
бые процедуры обработки изображений, прн которых на вход процедуры подается 
(одно) растровое изображение, н на выходе также формируется растровое изображе- 
ние. Такие процедуры тнпа (одни растровый вход, один растровый выход) называют 
фильтрами. 

Однако чаще под «фильтрацией» в более узком смысле понимают так называемую 
помеховую фильтрацию, нли фильтрацию нзображений от «шума». Прн этом неявно 
предполагается, что первоначально где-то существовало некое «нсходное» ндеально 
чистое (незашумленное) изображение, из которого затем путем зашумления (опре- 
деленного вида нскажения), было получено то реальное изображение, которое мы 
наблюдаем. Задача помеховой фильтрации, таким образом, сводится к тому, чтобы 
Путем некоторой обработки наблюдаемого реального изображения как можно лучше 
«очистить его от шума», то есть получить изображение, нанболее близкое по свони 
характеристикам к исходному «незашумленному» изображенню. 
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На самом деле необходимо понимать, что «зашумленне» — это всего лншь очень 
упрощенная ндеализированная модель возникновения искажений в цифровых изобра- 
жениях реальных объектов. Вообще же говоря, нскажения изображения, получаемого 
путем видеосъемки реального трехмерного объекта в природной обстановке, могут 
носить весьма сложный характер, зависящий от условий съемки (освещенность, TY- 
ман, блики, тени, дождь, снег ит. п.), характеристик оптической системы (дисторсин, 
расфокусировки, замутненность линз и зеркал H T. п.), характеристик электронной pe- 
гистрирующей аппаратуры, характеристик канала передачи, характеристик устройств 
оцифровки и еще многих н многих факторов. Приближенные к реальности математн- 
ческие модели формирования цифровых изображений содержат сотни сложных нели- 
нейных уравнений н множество табличных поправок. Прн этом закон формирования 
значения яркости каждого пиксела нзображення, как правило, не является незавнсн- 
мым от формирования соседних пикселов, яркостные параметры изображения зависят 
от геометрических, и так далее. При попытке математически «скорректировать» MO- 
добную сложную модель регистрации изображения говорят уже не о фильтрации от 
шума, a о реставрации кли реконструкиии изображений. 

К сожалению, методы реставрации изображений слишком сложны в вычислитель- 
ном смысле, чтобы на практнке использоваться в системах машинного зрения, på- 
ботающих в реальном масштабе временн. Кроме того. они требуют точного знания 
математической моделн н всех параметров системы вндеорегистрацин, что Hà практн- 
ке также практически невозможно. Поэтому в реальных системах машинного зреиня, 
как правило, используются более простые, но тем не менее достаточно эффектив- 
ные процедуры помеховой фильтрации, разработанные для борьбы с гораздо более 
простыми искажениями в виде независимого зашумления пикселов изображення. 

Нанболее общей моделью независимого зашумления пнкселов является шум за- 
мещения. Пусть дано исходное («незашумленное») полутоновое изображение Im[z, y], 
каждый пиксел которого может принимать значення в днапазоне [0,..., Imax — 1]. O6- 
щая модель шума замещения предполагает, что после зашумления каждый пиксел 
изображения, нмевший ранее значение яркости i, либо с некоторой известной Bepo- 
ятностью p(i) это значение сохранит, лнбо данное значение яркости будет случайным 
образом замещено с вероятностью q(i,j) некоторым другим значением яркости j нз 
того же конечного дискретного диапазона [0,..., Гах — 1]. Как видно, для описания 
такой общей модели случайного замещення нам потребуется задать таблицу лереход- 
ных вероятностей размера 12,.. что составляет весьма значительное количество в 
случае обычного 8-битового полутонового нзображения (размер таблицы — 256 х 256 
элементов). Такое описание явно является некомпактным и поэтому редко исполь- 
зуется на практике для полутоновых изображений. В то же время, для бинарных 
изображений, в которых [max = 2, такое описанне является нанболее удобным, про- 
стым H естественным. Чуть ниже мы еще рассмотрим модель шума замещения на 
бинарных нзображеннях — так называемую модель шума «соль и перец». 

Для полутоновых изображений, как правило, рассматривают другую, более част- 
ную модель зашумления — сддитивный шум, которая предполагает, что зашумленное 
нзображенне порождается по закону 


Im'[z, y] = Im[z, y] + R(z, y), 


где [m'[r. y] — пиксел зашуиленного нзображення, Im[r,y] — пиксел исходного изоб- 
раження, а R(r,y) — случайная аддитивная шумовая компонента. Кроме roro, B 
большинстве приложеннй завискиость шума от координат пиксела считается несуще- 
ственной. Наконец, исходя из известного в статистике закона больших чисел, закон 
распределения аддитивной шумовой компоненты предпочитают описывать удобным 
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параметрнческим семейством нормальных (гауссовских) распределений с нулевым 
средним. Таким образом, гсуссовский аддитивный шум описывается выражением 


Im'[r,y] = Im[z. y] + N(0,o), 


где N(a,0) — нормальное распределение, а — математическое ожидание нормально 
распределенного сигнала, с — средний квадрат отклонения (СКО) нормально распре- 
деленной величины. Именно такая модель зашумления чаще всего рассматривается в 
задачах фильтрации полутоновых изображений. 

На рис. 3.2.2-3.2.8 показаны примеры искусственного зашумления исходного NO- 
лутонового изображения лейкоцитов (puc. 3.2.1) специально сгеиерированиым аддн- 
THBHbIM гауссовским шумом с различными значениями СКО. Как видно, чем больше 
параметр зашумления с, тем более искаженным выглядит нзображенне. При больших 
значеннях с (рис. 3.2.7, 3.2.8) даже человеческий глаз уже с трудом различает общие 
очертания крупноразмерных объектов изображения (в данном случае — лейкоцитов), 
более мелкне и менее контрастные объекты становятся практически неразличимы. 

В следующих разделах мы будем иметь в виду этот пример, рассматривая различ- 
ные методы фильтрации цифровых изображений. 


Рис.3.2.1. Исходное полутоновое Рис. 3.2.2. Зашумлекие полуто- 
изображенне, с = 0 новогс изображения адднтивным 
гауссовским шумом, с = 20 


Рис. 3.2.3. Зашумление полуто Рис. 3.2.4. Зашумление полуто- 
ново-о изображения аддитивным НОВОГО изображения адднтивиым 
гауссовским шумом. O = 40 гауссовским шумом. с = 60 
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Рис. 3.2.5. Запумление полуто- Рис. 3.2.6. Зашумление полуто- 
нового кзображения 3214 THBHMM кового но Юражениа allbPbTMBHMM 
гвуссовским шумом, с "i гауссовским шумом, g 00 


Рис.3.2,7. Зашумление полуто- Рис. 3.2.8. Зашумление полуто- 
нового нзображения аддитивным нового изображения адднтианым 
гауссовским шумом, с = 200 гауссоаскнм шумом, с = 300 


Оконная фильтрация изображений в пространственной области. Исходя из 
задачи восстановления исходных значений яркости незашумленного изображення, а 
также H3 того. что шумовая компонента каждого пнксела является заранее He H3- 
вестной случайной величиной, следует, что для решения данной задачи необходимо 
использовать ту илн нную процедуру статистического оценивания. Это может быть 
Байесовское оценивание, оценивание по методу нанбольшего правдоподобия HAH лю- 
бой другой метод, известный нз курса математической статистики. Однако все этн 
методы требуют использовать для оценки искомой величниы не одно едниственное 
измерение (ведь оно также может быть зашумлено), а большую или меньшую стати- 
стическую выборку, всегда включающую несколько отсчетов, характеризующих дан- 
ную величину. В связи с этим H основная идея помеховой фильтрацин изображений 
заключается в том, что для оценки исходного значения каждого пиксела изображения 
нспользуєтся He только значение самого данного пиксела (как в ранее рассмотренных 
градационных преобразованиях), но H значення еще нескольких близких к нему пик- 
селов, попадающих в так называемое «окно» или апертуру фильтра, При этом «бли- 
зость» пикселов к оцениваемому поннмается в буквальном геометрическом смысле, 

Нанболее простымн для вычислительной реализации являются традицнонно HC- 
пользуемые прямоугольные окна (апертуры) фильтрации, определяемые простым 
условием типа «все пикселы данного окна отстоят от тестируемого центрально- 
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го пиксела на более чем на WinX/2 по горизонатали и WinY/2 по вертикали», где 

WinX к WinY — горизонтальный н вертикальный размер окна фильтрации соответ- 
ственно. Возможны н другие, более сложные способы формирования окон фильтра- 
ции — круглой, треугольной нли любой другой произвольной формы. 

Типовая процедура оконной фильтрации предполагает, что окно фильтрации NO- 
следовательно движется по входному изображению (например, алгоритм может об- 
ходить изображение «B порядке чтения»: сверху вниз по строкам, слева направо B 
каждой строке), прн этом в каждом положении окна пронсходнт анализ всех пиксе- 
лов, принадлежащих в данный момент окну, н на основе такого анализа центрально- 
му пикселу окна на выходном изображении присванвается то или нное финальное 
значение. Сформнрованное таким образом выходное изображение также называется 
результстом фильтрации. 

Процедуры оконной фильтрации могут различаться: 

® размером н формой окна (апертуры); 

e типом собираемых в окне локальных статистик; 

® способом принятия решення на основе собранных статистик. 

В любом случае, речь идет об использовании для оценивания значения центрального 
пиксела апертуры кнформацин о значеннях его соседей по изображению. B статнстн- 
ческом смысле это означает, что мы неявно опираемся на предположение о TOM, что на 
нсходном незашумленном нзображенни значения яркостей всех этих соседних пиксе- 
лов былн одинаковымн HJIH очень близкими, H наблюдаемые различня в HX яркостях на 
зашумленном нзображенин определяются только присутствием шумовой компоненты, 
которую и необходимо нсключить. Между тем, как мы уже видели, исследуя профили 
изображения, содержательное изображение вовсе не представляет собой одну сплош- 
ную «плоскость». В тех областях, которые визуально кажутся нам областями одина- 
ковой или медленно меняющейся яркостн, значення соседних пикселов действительно 
различаются незначительно. В то же время, на границах таких областей наблюдают- 
ся порой весьма резкие перепады яркостн — разница значений составляет от десят- 
ков до сотен градаций HHTeHCHBHOCTH даже между непосредственно соседствующимн 
пикселамн, Такки образом, мы видим, что на границах однородных областей оконные 
фильтры не могут работать эффективно, напротив, здесь они с большой вероятностью 
будут ошибаться, что визуально приведет к эффекту искажения формы контуров. 
Более Toro, еслн Hà нсходном нзображенни присутствуют контрастные объекты (об- 
ластн), размер которых существенно меньше размера окна фильтрации, фильтр может 
просто «He заметить» такой объект, отфильтровать его как шум, что приведет к ис- 
чезновению мелкоразмерных объектов на результирующем выходном нзображении. 

Казалось бы, из предыдущих рассуждений вытекает необходнмость работать с 
небольшими по размеру апертурами фильтров. Ведь чем меньше окно фильтра, тем 
меньшее число точек контура будет им «задето» и тем больше будет число точек, 
расположенных на «плато» однородных областей, для которых предположение о рав- 
ной яркости всех пикселов в окружающей их области будет справедливо. Однако 
интунтивно понятно, что чем сильнее присутствующий на изображении шум (чем 
npoTHBopeuuBee и «лжнвее» в среднем свидетельства точек об ux яркости), тем боль- 
шее колнчество пикселов приходится опрашнвать, чтобы добиться необходимой сте- 
пени уверенности в ответе, То есть апертуры большего размера обладают большей 
способностью к подавленню шумовой компоненты, для чего в принципе н создается 
гомеховый фильтр, 

Таким образом, коиструнруя H исследуя оконные процедуры фильтрации изобра- 
жений, мы всегда должны оценивать наблюдаемое качество фильтрации по двум 
следующим основным позициям: 
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1) способность фильтра удалять (отфильтровывать) с изображения шум; 

2) способность фильтра сохранять на изображении мелкоразмерные детали и фор- 

му контуров. 
С точки зрения последующего анализа изображения идеальным был бы такой поме- 
ховый фильтр, который мог бы полностью отфильтровывать шум, не искажая при этом 
формы контуров. К сожалению, этн требования противоречивы, поэтому в различных 
методах фильтрации мы имеем дело лишь с различными вариантами компромисса 
между HHMH, Выбор конкретного помехового фильтра для реализации в практической 
системе машинного зрения определяется тем, какое H3 требований является более 
важным в данной конкретной задаче, а также ограниченнями, налагаемыми на CHCTE- 
му архитектурой и скоростью имеющихся вычислительных средств, 

Перейдем теперь к рассмотрению конкретных алгоритмов оконной фнльтрации 
изображений. Поскольку принципиальный смысл основных процедур фильтрации про- 
ще почувствовать на примере фильтрации бинарных изображений, мы начнем с изу- 
чення простейших бинарных фильтров, 


3.2.2. Фильтрация бинарных изображеннй. 
Модель шума «соль и перец». Выше мы уже говорили о том, что для бинарных 
изображений наиболее удобной н соответствующей природе изображения является 
модель шума замещения типа «соль и перец». Под шумом Salt-and-Pepper (соль и 
перец) на бинарном изображении поннмают замещение | на 0 с вероятностью р и 
замещенне 0 на 1 с вероятностью 4. Табл. 3.2.1 переходных вероятностей для такого 
бинарного шума имеет вид: 


Таблнца 32.1. Переходные вероятности для бинарного шума «соль н перец» 


На рис. 3.2.10-3.2,16 показаны примеры искусственного зашумления исходного 
бинарного изображения лейкоцитов (puc. 3.2.9) специально сгенернрованиым шумом 
«соль н перец». Как видно, чем больше параметры зашумления р и q, тем более иска- 
женным выглядит изображение. Прн больших вероятностях замещения человеческий 
глаз уже с трудом различает общие очертания объектов изображения (puc. 3.2.15, 
3.2.16). 


Рис. 3.2.9. Исходное изображе- Рис.3.2.10. Зашумление бинар. 
ине, р= 0,9 = 0 ного изображения шумом «соль и 
перец», p = 0,02, g = 0,02 
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Рис. 3.2.11. Зашумление баню» Рис. 3.2.12. Зашумленяе бихар 
ного изображенля шумом «соль и ного изображения шумом «соль ж 
перец», p» 0,1. 9 = 0,1 перен», р = 0,2. 4:502 


Рис. 3.2.13. Зашумление бинар- Рис. 3.2.14. Зашумжнае бикар 
ного кэображения шумом «соль и ного изображения шумом «соль к 
перец», р = 0,25, q = 0,25 перец», р = 0.3, q= 0.3 


Рис. 3.2.16. Зашумление бингр- Рис. 3.2.16. Зашумление бинар- 
ного изображения шумом «соль H ного изображения шумом «соль H 
перец». р = 0,4, q = 04 перец», р = 0,45, q = 0,45 
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Структура оконного фильтра. Введем ряд определений н обозначений, позволя- 
ющих формально описать процедуру оконной фильтрации бинарного изображения. 

Входное изображение Xi, j) — массив l х k элементов zi; (i = 1....,/; j = Ll... k) 
каждый из которых соответствует некоторой точке (пикселу) изображения и прини- 
мает значения гу; € (0,1). 

Выходное изображение Y [1,7] — массив | x К элементов yi; (i= 1,.. l; ј=1.....К) 
каждый из которых соответствует некоторой точке (пикселу) изображения H принн- 
мает значения y;; € (0,1). 

ППР — правило принятия решения — правило, по которому принимается решение 
о значении элемента выходного изображения yj (? = 1,...,Ї; ј = 1,...,). 

Апертура или Окрестность точки пиксели) — множество пикселов изображения 
расположенное некоторым образом относительно базового пиксела. 

Базовым называется пиксел, для которого применяется ППР. Положенне аперту- 
ры на изображении определяется координатами базового пиксела апертуры. Базовый 
пиксел может находиться H не в геометрическом центре апертуры. Апертура опреде- 
ляется как массив d x с элементов (Qi; (і = 1,...,; j = 1,...,с), каждый из которых 
соответствует точке (пикселу) апретуры н принимает значения f2;; Е (0,1). Также, 
при определении апертуры, указываются координаты базового пиксела апертуры (ro- 
ризонтальная координата i Е T,d; вертнкальная координата j € Т, с) относительно эле- 
мента апертуры с координатами (i= l; j = 1) (левый верхний угол массива d х c). 
Значение элемента апертуры, равное 0, показывает, что данный пиксел не включен в 
апертуру, равное 1 — что данный пиксел включен в апертуру. 

Число элементов или размер апертуры обозначается n, 


d c 
п = уу я... 
i=l j=1 


Число единиц будем обозначать ki, число нулей — Ко. 
Апертура может нметь любую произвольную конфигурацию, например 


1 
9; = 0 
1 


о ~ о 


1 
0. 
1 


Рассмотрим теперь, используя введенную терминологию. различные методы окон- 
ной фильтрации бинарных изображений, 

Логическая фильтрация nomex. Назовем проколотой окрестность, в которой 6a- 
зовый пиксел не учнтывается при сборе статистики. В таблице 3.2.2 приведен пример 
проколотой окрестностн 3 x 3. 


Таблица 3.22. Пример проколотой окрестности 3 x 3 


Проколотая окрестность 3 x 3 содержит 8 пикселов, влияющих на принятие реше- 
ння, При логической фильтрации помех решение принимается после опроса проколо- 
той окрестности Qij для каждого пиксела у;; следующим образом: 
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1, еслн все пикселы в (1j; равны l, 
уу = 10, еслн все пикселы в 9,; равны 0, 


Tij, в остальных случаях. 


Смысл этого выражения заключается в TOM, что если все соседние с центральным 
пикселы голосуют в пользу 0, центральный пиксел устанавливается в O, Если все 
соседние пикселы голосуют в пользу 1, центральный пиксел устанавливается в 1, 
Если соседн не голосуют единогласно, центральный пиксел остается без изменений. 

Такая фильтрация хорошо справляется с редкими одиночными (нзолированными) 
пикселамн-артефактами (как на puc. 3.2.10), но при более интенсивных шумах дан- 
ный алгоритм оказывается практически бесполезен, так как изолнрованные белые н 
черные шумовые точки встречаются все реже. Для таких случаев требуется более 
мощное решающее правило. 

Бииарная медианиая фильтрация. Медиснный фильтр действует следующим 
образом. Пусть выбрана некоторая (чаще всего не проколотая) апертура {);;, содер- 
жащая нечетное число п элементов. После опроса апертуры получаем Its an) — 
последовательность из n чнсел. ППР для медианы заключается в том, что мы y nopsino- 
чиваем элементы последовательности {а} в порядке возрастания и в качестве 
значення выхода ji; выбираем «средний по номеру» элемент упорядоченной последо- 
вательности (z!,...,2"), то есть значение, стоящее на (241) месте в упорядоченном 
списке значений входных пикселов. 

Для бинарного медианного фильтра мы получаем следующее ППР: 


7 1, еслн в апертуре Qij больше единиц чем нулей, 
ij - 
0, еслн в aneprype Qj; больше нулей чем единиц. 


На рис. 3.2.17-3.2.22 приводятся примеры фильтрации бинарного изображення с раз- 
личными степенями зашумлення меднанным фильтром с размером окна З x 3. Как 
видно, данный фильтр хорошо справляется со слабой и средней степенью зашумле- 
ния (рис. 3,2,17-3.2.20), однако при дальнейшем увеличении мощностн шума фильтр 
c апертурой 3 x 3 начинает ошибаться (puc. 3.2 21, 3.2.22). 


чо wo 


Рис. 3.2.17. Слабая степень за- Рис.3.2.18. Результат фильтра: 
шумления изображення UHH исходного изображения Me 
днаной med 3 x 3 
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Рис. 3.2.19. Срелияя степень за Рис, 3.2.20, Результат фильтра- 
шумления цин исходного изображег ня H306- 
ражения med 3 x 3 
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Рис. 3.2.21, Сильная стегень зг Рис, 3.2.22, Результат фильтра- 


шумления ции исходного изображения H306- 
ражения med 3 x 3 
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Рис, 3.2.23. Высокая степень за Puc, 3.2.24, Результат фильтра- 
шумления цин исходного изображения H306- 
ражения медианой med 5 x 5 
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Рис. 3.2.25. Результат фильтра- Рис.3.2.26. Результат фнльтра- 
ции изображеиня med 7 x 7 ции изображения med 9 x 9 
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Рис, 3.2.27, Результат фильтра- Рис,3.2.28. Результат фнльтра- 
цин Изображения med 15х15 UHH изображения med 3l x3l 


Для подавлення более HHTeHCHBHbIX шумов необходимо использовать меднанный 
фильтр с большими размерами окна фильтрации. На рис. 3.2.24-3.2.28 приводятся 
примеры медианной фильтрации с различными размераин апертуры. 

Как видио из рис. 3.2.24-3.2.26, с увеличением размера окна растет способ- 
ность меднанного фильтра подавлять шумовые точки. Однако при слишком боль- 
ших размерах апертуры очертания объектов оказываются слишком сильно нскажены 
(рис. 3.2.27, 3.2.28). Поэтому в каждом конкретном случае фильтры необходимо Ha- 
страивать в зависимости от наблюдаемой степени нскажений характерных размеров 
наблюдаемых объектов. 

Рассмотрим еще раз медиану как правило принятия решення B бинарном оконном 
фильтре, действующем на изображении в присутствии шума «соль н перец». Легко 
заметить, что такое правило принятия решения соответствует максимуму апостери- 
орной вероятности в том случае, если 


р= 9 < 0,5. 
Действительно, еслн в среднем ннвертирование белых и Черных элементов проис- 


ходит с равной вероятностью (но не более 1/2), то в апертуре будет наблюдаться в 
среднем болыше тех элементов, каких там и было больше до зашумления. Однако 
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это не обязательно так, если вероятность перехода 0 — 1 больше вероятности Nepe- 
хода 1 — 0 кли наоборот. В этом случае «средняя» ранговая оценка может оказаться 
неоптимальной. 

Бинарная ранговая фильтрация. Правило прннятня решения для рангового или 
процентильного фильтра нмеет BHA, аналогичный ППР для медканного фильтра, 


1, если число единиц в апертуре 1; : К! 2 К: 


idi 0, если число нулей в aneprype Qij : ko 2 п + 1 – К; 
где k = const — задаваемое значение, причем 0 < К < n. 

Процентильные фильтры обозначаются (k/n),. 

Легко заметить, что медианный фильтр есть частный случай процентнльного 
(k/n), при k = (25). 

В свете приведенных выше рассуждений ясно, что фильтрацию с более «низкими» 
рангами, чем медиана следует применять B том случае, если вероятность перехода 
1 — 0 существенно больше вероятности перехода 0 — 1. С более «высокими» ран- 
raMH следует работать B том случае, если вероятность перехода 0 — 1 существенно 
больше вероятности перехода 1 — 0. Предельным случаем такого «асимметричного» 
шума является униполярный шум с параметрами (р = 0. q > 0) или (7 = 0, р> 0). B 
этих случаях оптимальная ранговая фильтрация принимает вид максимального или 
минимального фильтра соответственно. 

Взвешенные ранговые фильтры. Как уже говорилось, нспользование процен- 
тильных фильтров для подавления помех основано на предположении, "ITO объекты 
(однородные области) на исходном изображении настолько велики, что число положе- 
ний апертуры 0;;, в которых она целиком (всеми пикселами) попадает на объект HAH 
также целиком на фон, намного больше числа «переходных состояний» (рис. 3.2.29). 


Апертура целиком на фоне 


0 10 
0 010101 0 1]состояние 
0 10101 [o0 1 ^0) всегда 
0 01010101 переходное 
0 10101010 
0 061010101 

Переходное ј состояние 10101010 
Puc. 3.2.29. Положение фнльтра от- Pnc.3.2.30. «Переходные состоя- 
иосительно объекта ния» фильтра на сцене вида «шах- 


матная доска» (положение фильтра 
относительно объекта) 


Если это предположение не выполняется (например, сцена имеет вид «шахматной 
доски» (puc. 3.2.30), то процентильная фильтрация приведет лишь к усилению помех 
(увеличению числа ошибок на сцене). Это связано с тем, что, подсчитывая Число 
единиц и нулей в апертуре, мы как бы заранее предполагаем, что на нсходной сцене 
(в неискаженном состоянии) все соседние пнкселы в подавляющем большинстве слу- 
чаев нмели одннаковые значения. И поэтому Число единиц воспринимается как число 
свидетельств в пользу предположения, что базовый пиксел до зашумления нмел зна- 
чение 1, а число нулей — что его значение было 0. Пусть, однако, нам известен 
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только иниимальный размер объектов и мннимальное расстояние между ними. Mo- 
высить устойчивость фильтрации можно, придав более близким точкам окрестности 
большее влияние на окончательный результат, чем дальним. Это можно осуществить 
при помощи матрицы весов. При этом значения каждого пиксела апертуры T;; при 
подсчете модифицироваиного Числа единиц К умножается на определенный вес 


к= У чм, 


г. ЕП 


где Qy — весовые коэффициенты элементов апертуры (целые числа). 
Модифицированный размер апертуры для взвешенного фильтра теперь имеет вид 


п= >D fiz: 


TEN 


ППР (k/n), для взвешенного процентильного фильтра практически эквивалентно 
прежнему с учетом новых значений k н п. Приведем два возможных примера весовых 
матриц (3.2.1) к (3.2.2). 


00100 
02420 
14821 (3.2.1) 
02420 
0 0 1 0 Q0, 
10 1 
010 (3.2.2) 
101. 


Матрица (3.2.1) реализует описанный выше принцип «штрафа за удаление». Общий 
размер апертуры в этом случае равен п = 36. Матрица (3.2.2) является весовой мат- 
рицей типа «маска» (матрица весов состонт из нулей и единни). Данная маска сп = 5 
позволяет фильтровать даже сцены типа «шахматная доска» (см. рис. 3.2.30). 

Аинзотропная фильтрация. Анизотропная фильтрация отличается от описанных 
ранее алгоритмов тем, что обладает ннерцнонностью, T. e. «помнит» свон предыдущие 
состояния. 

Пусть фикснрованы параметры ni, n2 и №, k2 (O < ki < т, 0 < А < nj). Введем 
леременную состояння 2, принимающую значения 0 и 1. 

ППР для анизотропного фильтра опишем как последовательность выполняемых 
операций для каждой строкн (7 = l,...,m). 

Шаг 0. Присвоить z := 0;1:=1 

Шаг І. Просмотреть nj элементов строки, начнная с элемента Tij. Если число 
единиц средн них превышает ko, то 2 := 1. 

Шаг 2. Просмотреть n, элементов строкн, начиная с элемента r,,. Если число 
нулей среди них превышает kj, то z := 0. 

Шаг 3. Принять решение yi; := 2. 

Шаг 4. i :=i +1. Перейти к шагу 1, если строка еще не окончена. 

Таким образом, состояние (а следовательно, H выход этого фильтра) изменится 
только в том случае, если будет принято решение (k2/n2),. по единице или решение 
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(К /ni),, по нулю. Индекс oo, в отличие от п, в процентильных фильтрах означает, 
что память о принятом однажды решенин может сохранятся бесконечно долго, если 
не встретится таких положений, в которых будет прииято противоположное решение). 
Этот фильтр применяется только для помеховой фильтрации изображений. 

Расшнренне-сжатие (простая морфология). Расширением называется итера- 
тивно применяемый к бннариому изображению максимальный фильтр с квадратной 
апертурой размера З x 3 пиксела. Соответственно, сжатием пазывается итеративно 
применяемый минимальный фильтр с той же апертурой 3 x 3. Параметром, опре- 
деляющим свойства фильтрации, при этом считается количество циклов сжатия и 
расширения. 

Фильтрация типа расширение-сжатие может применяться для удаления слабого 
шума типа соль-перец, однако в этом качестве она уступает меднанной фильтрацин. 
Однако основная область применения таких фильтров — удаление сложных неслу- 
чайных искажений формы фигур. Недаром изначально такой прием фильтрации был 
предложен для выявлення дефектов типа «разрывов» и «перемычек» металлических 
Дорожек на изображениях печатных плат в задачах технического и техиологического 
контроля. 

Рассмотрим геометрический смысл операций расширения и сжатия иа примере 
обработки искусственного изображения (рис. 3.2.31), на котором представлен прямо- 
угольный объект, имеющий «дефекты формы» тнпа внутренних «дырок» и внешних 
«выступов». Попробуем средствами расширеиня-сжатия удалить эти дефекты формы 
объекта. 

Начнем с удалення внешних «выступов» формы. Для этого используется последо- 
вательность операций расширение-сжатие. На первом этапе этой процедуры выпол- 
няется операция расширения светлого фона (т.е. сжатня темного объекта) с таким 
числом циклов, которое полиостью удаляет («съедаст») внешние «выступы» формы. 


Рис. 3.2.31. Изображенне с «дефектами» типа «дырок» и «выступов» 


Однако внешний размер объекта при этом уменьшается, а внутренние дефекты, на- 
против, увеличиваются в размерах, в связи с чем после этого необходимо выполнить 
сжатие фона (т. e. расширение объекта) с тем же числом циклов. В результате выпол- 
нения обоих этапов операции расшнрения-сжатия внешние размеры и форма объекта 
оказываются полностью восстановлены, но внутренние дефекты формы сохраняются 
(рис. 3.2.32, 3.2.33). 

Рассмотрим теперь аналогичную технику удаления внутренних дефектов bop- 
мы («дырок»). Для этого нспользуется обратный порядок операций: сжатие- 
расширение. На первом этапе этой процедуры выполняется операция сжатия фона 
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(т.е. расширения объекта) необходимым числом циклов, которое удаляет («зарашн- 
вает») внутрейине «Дыры» и «каналы». Однако внешний размер объекта при этом 
увеличивается, внешние дефекты, также увеличиваются в размерах, в связи с чем 
после этого необходимо выполнить расширение фона (сжатне объекта) с тем же чис- 
лом циклов. В результате выполнения всей операцин сжатия-расшнрення в целом 
размеры и внутренняя пелостность объекта оказываются восстановлены, но внешнне 
дефекты формы сохраняются (рис. 3.2.34, 3.2.35). 


их Е 


Рис. 3.2.32, Результат сжатня объекта Рис. 3.2.33. Результат расширення после cxa- 
тия объекта (удаленне внешних «выступов» 


формы) 


mu 


Рис. 3.2.34. Результат расшнрения объекта Рис.3.2.35. Результат сжатня после расшн- 
рення объекта (удаленне внутренннх «дырок» 
формы) 

Рис.3.2.36. Результат расинрения-сжатня Рис.3.2.37. Результат сжатия-расшнрения no- 


сле расширения-сжатия (полное восстаповленне 


формы) 
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Для того чтобы устраннть н внешнне, н внутренние дефекты формы B дан- 
ном прнмере. необходимо сначала применить к исходному изображению (puc. 3.2.31) 
расширение-сжатне, а затем к результату этой операции — сжатие-расширение с тем 
же числом циклов (рис. 3.2.36, 3.2.37). 

Операции расширения-сжатия представляют собой простейший эвристнческий BA- 
риант операций математической морфологии (Серра). которая будет подробно pac- 
сматриваться в главе 6 данной книги. 

Стираиие бахромы. Данный фильтр также является морфологическим в том 
смысле, что он направлен не на удаление произвольного случайного шума, а на 
удаление неких формозависимых нскажений, определяемых заданной моделью. Ал- 
горитм осуществляет стиранне бахромы, т.е. неровностей границ объекта, которые 
мешают его распознаванию по контурному признаку. Суть алгоритма заключается в 
последовательном стиранин крайних элементов. 

Пусть в качестве апертуры выбрана окрестность второго порядка: 


Введем понятне крайнего верхнего пиксела. 
Крайним верхним пикселом будем называть такой пиксел Xij, в апертуре Qij 
которого наблюдаются следующие сочетания: 
00 0 
a 0 1 0 б) 
100 


(a)-e) — фрагменты изображения, 0 — элемент фона, 1 — элемент нзображення). 

С помощью поворота матрнц а)-е) на 90°, 180°, 270° мы получим определение 
соответственно крайних левого нижнего н правого пикселов. 

Все краевые пикселы стираются при фильтрацин. Стнраются также изолированные 
пикселы, не имеющие соседних пикселов в апертуре: 


Остальные (пикселы, не являющиеся крайними или изолированнымн) переносятся на 
отфильтрованное изображение без изменения. 

По аналогии с описанным cTHpaHHeM бахромы из единиц можно ввести стира- 
ние бахромы из нулей. При этом «краевые нули», апертуры которых соответствуют 
матрицам а)-ж) с заменой единиц на нулн и нулей на единицы, «стираются», т.е. 
замещаются единицами. 

Наконец, можно определить алгоритм комбинированного стирання бахромы: н по 
единицам (по объекту) и no нулям (по фону) одновременно. Стнрание бахромы нс- 
пользуется как предварительная обработка перед оконтуриваннем. Комбинированное 
стирание бахромы может быть использовано также для подавлення помех без иска- 
жения контуров. 
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3.2.3. Нелинейная фильтрация полутоновых изображений. Алгоритмы нелн- 
нейной оконной фильтрации полутоновых нзображений делятся на две большие rpyn- 
пы: нелинейные ранговые H морфологическне фильтры. Ранговая фильтрация рас- 
сматривается в данном разделе. Морфологические фильтры будут подробно описаны 
в ГЛ. 6. 

Ранговая оконная фильтрация. Нелинейная ранговая фильтрация является 
нелосредственным обобщением бинарной ранговой фильтрации H опирается Ha no- 
нятне лорядковой статистики. Вокруг каждого элемента изображения выбирается 
окрестность, входящие в нее элементы изображения упорядочиваются по возраста- 
нию яркости. Ранговый фильтр порядка т (1<т < М, где N — число отсчетов в 
окрестности) выбирает нз полученного ряда элемент с номером г и присванвает его 
значение исходному элементу нзображення. Когда чнсло N нечетное ит = (№ + 1)/2, 
то фильтр называется медианным. Меднанный фильтр имеет важное значение в об- 
работке изображений вследствие высокой робастности, то есть нечувствительностн 
результатов фильтрации к плотностн распределения (первого порядка) шумовой ком- 
поненты. Это связано с тем, что меднанный фильтр с апертурой площадью 2М - 1 
эффективно подавляет локальные областн площадью менее М пикселов. В то же вре- 
мя, при фильтрации контрастных крупноразмерных объектов меднанный фильтр не 
размывает H He смещает их края (точкн перепада яркости). 

Рассмотрим примеры ранговой полутоновой фильтрации по аналогни с тем, как 
ранее былк рассмотрены примеры ранговой бинарной фильтраиин. Изображения 3a- 
шумлены гауссовским аддитивным шумом (си. рис. 3.2.2-3.2.8). 

На рис. 3.2.38-3.2.43 приводятся примеры фильтрации полутонового изображения 
с различными степенями зашумлення меднанным фильтром с размером окна 3x3. Как 
видно, данный фильтр хорошо справляется со слабой н средней степенью зашумлення 
(рис. 3.2.38-3.2.42), однако при дальнейшем увеличении мощности шума фильтр с 
апертурой З x З начинает ошибаться (puc. 3.2.44, 3.2.43). 

Для подавления более интенсивных шумов необходнмо использовать меднанный 
фильтр с ббльшими размерами окна фильтрации. На puc. 3.2.44-3.2.49 приводятся 
примеры медианной фильтрации с различнымн размерами апертуры. 


Рис. 3.2.38. Слабая степень за- Рис. 3.2.39. Результат фильтра- 
шумлення нсходного нзображення UKH меднаной med 3 x З 


Как видно из рис. 3.2.45-3.2.47, с увеличением размера окна растет способ- 
ность меднанного фильтра подавлять шумовую компоненту. Однако при слишком 
больших размерах апертуры (рис. 3.2.48, 3.2.49), как н в случае бинарной филь- 
трацин, очертания объектов оказываются слишком сильно искажены. Кроме того, 
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меньшне по размеру объекты оказываются целиком удалены с изображения. Поэто- 
My в каждом конкретном случае фильтры необходимо настраивать в зависимости 
от наблюдаемой степени нскажений характерных размеров наблюдаемых объектов. 


Рис.3.2.40. Средняя степень за- Рис. 3.2.41. Результат фильтра. 


шумления исходного изображения цин med3»3 


Рис. 3.2.42. Сильная степень 3a- Рис. 3.2.43. Результат фильтра 


шумления исходного изображения ции med 3x 3 


Рис.3.2.44. Зашумленное нзоб- Рис. 3.2.45. Результат меднан- 
раженне пой фильтрации med 5 x 5 
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Рис. 3.2.46. Результат медиа Рис. 3.2.47. Результат медканчой 


ной фкльтразии med 7 х фальграции med 9 x 9 


Рис. 3.2.48. Результат меднаи- Рис. 3.2.49. Результат медиан: 
ной фильтрацнн med 15 x 15 ной фильтрацин med 31 x 31 


Имеется значительное число обобщений н модификаций процедур нелниейной paH- 
говой обработки. Введем необходимые понятия для их краткого описання в соответ- 
ствии с терминологией, предложенной в работе [164]: 

(i.j) — координаты текущего пиксела на изображенин; 

fij € [0.@ - 1] — дискретное значение яркостн изображения f(i, j) в точке (i,j); 

Q — число урозней яркостн; 

5.окрестность элемента (i,j) — заданное определенным образом множество эле- 
ментов изображения, окружающих «центральный» элемент (i,j) (форма апертуры). 
Примеры типичных 5-скрестностей: квадрат, прямоугольник, крест, окружность H 
T. ll. 

М-окрестность — подмножество элементов S-okpecTHOCTH, обладающих каким- 
либо нужным свойством, например, подмножество отсчетов, превышающих заданный 
noor и Ap.: 

Nm — число элементов М-окрестностн; 

fur) — r-a порядков статистика по М ·окрестностн; 

MEAN(M) = ЗЯ fij — среднее арифметическое значение элементов M- 


Na јем 
окрестностн; 


MED(M) = f, ((N,, + 1)/2]) — меднана элементов М-окрестности. 
Наиболее важные типы М -окрестностн: 
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К$М-окрестность состонт нз К элементов, ближайших по какой-либо метрике на 
растре к заданному элементу; 

КМУ-окрестность из К ближайших соседей к данному элементу по значению 
сигнала; 

ЕУ-окрестность: EV(f) = {fa (Е) : fg — ev S k S fij +в}; 

н ЕВ-окрестность: ER(f) = (fi(k) : tmi Лу) ^ Tr < К < rm(fü) + ть}, 

где /.(К) — элемент 5-окрестности точки (i,j) со значением яркости К; тт(/) — 
ранг элементов / в варнационном ряду М-окрестностн. 

Введем модель импульсного шума замещения в виде 


Лу = 1555 + 1-5), 


где 5;; — случайная величина, принимающая значения O или ] с вероятностью рн 
характеризующая наличие (5 — 0) или отсутствие (5 = 1) сбоя сигнала. 

Можно показать, что для этой модели шума строгая постановка задачи оптималь- 
ного сглаживания по методу максимального правдоподобия приводит к нтеративной 
(с помером итерации t= 0,1,...) процедуре фильтрации вида 


ПЕН = МЕАМ(ЕХ(/0)) 


или 
J+ 2 MED(EV(/?)) 


в зависимости от выбора статистики сигнала (гауссовская или лапласовская). 

С точки зрения задачи подавления шума без потери формы снгнала KDHTepHH опти- 
мальностк можно определить следующим образом. Ранговым алгоритмам, использу- 
ющим ЕУ -окрестности, соответствует критерий максимального подавления шума при 
уровне смаза, не превышающем заданного, а ранговым алгоритмам, использующим 
КМУ-окрестность — критерий минимума смаза при заданном уровне подавлення шу- 
ма. Возможность выбора КМУ-окрестности позволяет учесть априорную информацию 
о геометрических размерах деталей изображения, которые необходимо сохранить; B 
свою очередь, выбор EV-okpecTHocTH позволяет учитывать апрнорную ниформацию о 
дисперсии шума, который должен быть устранен. 

К числу нелинейных ранговых фильтров относятся многне известные алгоритмы, 
в частности счгма-фильтр [50], [164] 


fij = МЕАМ(ЕУ(/;)), 


где є, = 1.50, а с — параметр СКО локальной статистики окна обработки, H сигма- 
медианный фильтр 
Л; = MED(EV (fi;)), 


причем, вообще говоря, отсечение отсчетов для усреднения может происходить Hà лю- 
бом уровне значимости X: £y = х0. Таким образом, этн формулы охватывают случай 
х — усеченных фильтров [164]. 

Эффективной разновидностью ранговых алгоритмов сглаживания является так Ha- 
зываемый Ѕ№№М-алгоритм. В этом алгоритме может быть применена любая схема 
сигма-фильтрацин. Однако выбор М-окрестности обработки ведется, исходя из reo- 
метрических соображений, таким способом, что усредняемые отсчеты не могли в силу 
геометрических свойств апертуры находиться по разные стороны от границы возмож- 
ного перепада яркостн (края). 

Заканчивая краткий обзор методов нелинейной ранговой фильтрации, можно OT- 
метить, что этот класс алгоритмов имеет высокую способность к подавлению шумовой 
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компоненты, устойчив к различным видам шумов. допускает параллельную обработку 
информации H быстрые алгоритмы реализации. 

«Быстрые» алгоритмы оконной фильтрации. Ключевая идея ускорения вычис- 
лений прн пространственной фильтрации изображеннй заключается в использовании 
метода скользящего окна, аналогичного нзвестному методу вычисления «скользящих 
сумм», описанному, например Хуангом [47]. Суть этого метода заключается в хра- 
ненин предвычисленных статистик по столбцам окна с последующим рекуррентным 
вычитанием статистик «уходящих столбцов» H добавлением в общую статнстнку CTA- 
тистик «приходящих» столбцов по ходу движения скользящего окна вдоль строки 
изображення. 

Рассмотрим этот метод на примере вычисления скользящего среднего арифметн- 
ческого элементов 5-окрестностн (окна) © согласно следующей формуле: 


а b 
(аи) = У У alt+r, и +), (тм) EN. 


zz aüym-b 


Непосредственное вычисление среднего в каждом положении окна Hà нзображенин 
потребует порядка аб Г.М операций, где a x b — размеры окна, N x L — размеры 
изобра ження. 

Введем теперь дополнительный массив для хранения сумм элементов столбцов, 
принадлежащих текущему окну: 


b 
sum(i) = 5 gi(zi + zi и +y) 1=0,...,2а. 
y=-b 


Тогда по мере сдвнга окна вправо по строке для перевычислення суммы элементов 


окна достаточно всего лишь одного сложення н одного вычитания элементов из зит (i) 
(см. рис. 3.2.50) 


Замещение зивчений элемента 
массива сумм 


Рис.3.2.50. Алгорнтм вычислення скользящей суммы с опорой на два столбца 


Вычислительная сложность такой операции будет порядка DLN, то есть в а раз 
меньше, чем раньше. 

Аналогичным образом можно осуществить н вычисление ранговых статистик 
(например, медианы) в скользящем окне. Алгоритми имеет следующий BHA. 

1) В крайнем левом положенин окна в строке собрать гистограмму элементов окна 
н вычислить значение меднаны. 
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2) Сместить окно на один пиксел вправо. 

3) Обновить гистограмму: декрементнровать значения ячеек, соответствующие 
«уходящему» столбцу окна, никрементировать значення ячеек, соответствующие 
«приходящему» столбцу окна. 

4) Обновить значение меднаны. двигаясь по гистограмме из предыдущего положе- 
ния до тех пор, пока сумма элементов справа не окажется больше илн равна сумме 
элементов слева. 

При этом вынгрыш во времени вычислений получается не только за счет того. что 
нсключается многократный опрос одних H тех же элементов окна, HO H за счет того, 
что исключается этап сортировки значений яркостн в окне (так как гистограмма H 
представляет собой уже упорядоченный массив значений яркости). 

Минимаксиая фильтрация. Наряду с меднаннымн фильтрами широко применя- 
ется метод минимаксной фильтрации, использующий для обработки значення мини- 
мального H максимального элементов варнацнонного ряда, построенного из отсчетов 
окна фильтра. При наличии униполярного импульсного шума, характеризующегося 
либо положительными, либо отрицательнымн выбросами из среднего уровня фоновой 
составляющей, меднанный фильтр может оказаться недостаточно надежным, когда 
плотность шума высока H более половины пикселов окна обработки составляют Bbl- 
бросы одинаковой полярностн. Очевидный выход из этой снтуацин — использовать 
элемент иниимального ранга для выбросов положительной полярности H элемент мак- 
симального ранга для выбросов отрицательной полярности. В этом случае шумовые 
импульсы удаляются даже при очень сильном уровне засоренностн. В то же время 
отдельное применение минимального н максимального фнльтра во многом аналогично 
действию операций сжатня H расшнрення, рассмотренных выше, и приводят к искаже- 
нню формы сигнала объекта. Поэтому с целью сохранения формы полезного сигнала 
целесообразна последовательная схема минимаксной фнльтрацин, состоящая из двух 
проходов по изображению н обработкн сначала минимальным (максимальным), а за- 
тем максимальным (минимальным) рангом локальной статистики, что увеличивает 
эффективность фильтрации H в случае биполярного импульсного шума. Оптимальная 
последовательность, в которой следует выбнрать минимальную (максимальную) про- 
цедуру, определяется характеристиками входного изображения: если ненскаженное 
изображение состонт из ярких объектов на темном фоне, то правильная последова- 
тельность min-max. Обратная процедура справедлива для негативного изображення. 

Сравнение миннмаксиой фильтрации с медианной может вестись в двух направле- 
ниях: эффективности результатов фильтрации H требуемых вычислительных затрат. 
При удалении шума мннимаксный фильтр требует меньших размеров апертур филь- 
тра, чем меднаиный, но зато выполняет обработку в два прохода (меднанный за один). 
Однако сложность построения ранговой статистики растет сверхлинейно с размером 
апертуры, ввиду этого минимаксный фильтр в вычислительном аспекте представля- 
ется более предпочтительным. Учитывая, что при организации процедуры фоновой 
нормализации удаление сигнала от объекта требует для минимаксного фильтра мень- 
ших размеров апертуры, чем для меднанного (примерно вдвое), данный тип фильтра 
может обеспечить ббльшую надежность нормализации при одних H тех же вычнс- 
лительных затратах илн меньшую вычислительную нагрузку прн одннаковом уровне 
надежностн. Недостаток мннимаксного фильтра проявляется при обработке биполяр- 
ного импульсного шума, где он не дает какого-либо вынгрыша по сравнению с меднан- 
ным фильтром, и, кроме того, процедура нормализации фона остается недостаточно 
эффективной вследствие того, что ранговая обработка, хотя H в меньшей степени, 
чем линейная, — но все же нскажает яркостно-геометрические свойства фона при 
больших размерах апертуры. 
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3.2.4. Задача выделения объектов нитереса. Традиционные схемы обнаруже- 
ния мелко- н среднеразмерных объектов на нзображеннях заключались в проведении 
первоначальной яркостной сегментации анализируемого изображения с целью уста- 
новлення зобластн HHTepeca», ограничивающей объект нзображення, а затем исполь- 
зовании различных признаковых описаний формы объекта для соотнесения найден- 
ных значений признаков с их эталоннымн значениями [20], [24], [28], [146]. Различ- 
ные системы подобных прнзнаков будут рассмотрены нами позднее. 

К сожалению, при усложненни состава сцены, условий наблюдення н увеличении 
шумовой компоненты для таких методов наблюдается существенный рост вероятно- 
сти аномальных ошибок обнаруження. Особенно это относится к простым схемам 
яркостной сегментацин по порогу, которые обычно использовались при обнаружении 
области интереса или «носителя» объекта. Однако нспользование методов нелинейной 
фильтрации непосредственно на этапе сегментации изображения позволяет разнтель- 
но повысить эффективность процедур выделення мелко- н среднеразмерных объектов 
на цифровых нзображеннях. 

Бииарные фильтры для выделения объектов. 

Сгущенне. Пусть выбрана апертура f2,. Определим некоторый фиксированный 
параметр N (0 < М < т), где п — число пикселов в апертуре Я, (размер апертуры). 
Введем следующее ППР: 

1) заполнить единицами всю апертуру, если число единиц B Я; : 2 Ni 

2) заполнить нулями всю апертуру, если число единиц в Qi : kv < М. 

В завнсимостн от выбираемой формы Nij, величины апертуры п н выбора парамет- 
ра сгущения № этот фильтр может служить н для подавления помех, и для понска 
небольших объектов непосредственно в зашумленных (неотфильтрованных предварн- 
тельно) сценах. 

Селекция с восстановлением. Этот алгоритм есть в некотором смысле 
аналог алгоритма логической фильтрации для выхода, формируемого, как в предыду- 
щем случае («сгущенне»). Пусть выбрана апертура S}; н фикснрованы два параметра 
селекции: верхнее граничное значение No (№ < №, < п) и нижнее граничное значе- 
ние № (0< Ni < №). 

Пусть число единиц в aueprype (2;, равно ki. ППР этого фильтра нмеет следующий 
ВИД: 

1) заполнить единицами всю апертуру, если kj > Ns; 

2) заполнить нулями всю апертуру, если ki < Ni; 

3) перенести на отфильтрованное изображение все пикселы апертуры без измене- 
ний, еслн № < К, < №. 

Этот фильтр может одновременно выполнять M функцию подавлення помех, и 
функцию обнаружения мелкоразмерных объектов. 

Селекция по площади. Этот алгоритм напоминает предыдущий, однако 
нмеет совершенно иное назначенне. 

Пусть определены $}; размера n н параметры №, н № (0 < № < N < п). ППР 
HMeeT BHA: 

1) заполнить апертуру единицами, если №, < ki < Ny; 

2) заполнить апертуру нулями, если (ki < №.) v (ki 2 №). 

Этот фильтр предназначен только для обнаружения мелкоразмерных объектов, а 
также при определенном выборе {1;;, Ni и № способен выделять контуры крупных 
объектов на изображении. Для помеховой фильтрации не применяется. 

Пеленг. Одной из важнейших характеристик фильтров является их быстродей- 
ствие. Очевидно, что время работы фильтра пропорционально числу опрашиваемых 
элементов, т.е. размеру апертуры. Предположим, что нужно обнаружить на изобра- 
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жении некоторый объект значительных размеров, Можно сделать это, например, при 
помощи сгущения с соответствующей апертурой Я н значением N HIH аналогично с 
помощью селекции с восстановлением HJIH селекцин по площади. Однако размер апер- 
туры n в этом случае будет пропорционален не линейному размеру искомого объекта, 
а его квадрату (рнс. 3.2.51). 


Рис. 3.2.51. Принцип действия фильтра ‹«пеленг» 


Нанболее простое решение заключается в следующем. Выделим несколько ха- 
рактерных направлений li,... lp, по которым искомый объект обладает наибольшей 
протяженностью. H расположнм вдоль этих направлений р линейных апертур соот- 
ветствующей длины ти,...,Пр. Теперь для обнаружения объекта достаточно объявить 
частные решення по каждой из апертур. 

В данной реалнзацин фильтра выбраны четыре направлення, два — параллельные 
осям i M 7 (направления li н |j), н два — вдоль направлений под 45° к осям i 
н 7 (направления lz н l4), как показано на рис. 3.2.516. Пусть длина апертуры no 
направлению lı равна т, по направленню [2 равна n», по направлению l3 равна пз н 
по направлению (4 равна na. Пусть фиксированы также ki, ko, ks, ka (0 < ki < т, 0< 
№ < по, 0 < ky < n, 0 < k4 < n4). Тогда для пеленгующего фильтра ППР прниет вид 


1, если 
(число единиц в апертуре ni > ki) ^ 
s ^ (число едиинц в апертуре n2 > kj) ^ 
^ (число единки в апертуре na > k3) ^ 
^ (число единни в апертуре n4 > Ка); 


0, если He выполняется предыдущее условие. 


Согласно с ППР, еслн найден объект Ha обрабатываемом изображении, то на Bbl- 
ходном изображенин устанавливается в «|» только лишь один пиксел, соответствую- 
щий базовому пикселу (комбинированной апертуры) на обрабатываемом изображении. 

Таким образом, пеленг в каком-то смысле является логической комбинацией про- 
центильных фильтров. Возможны н другие варнанты таких логических комбинаций. 

Пеленг с окаймлен нем. Этот алгоритм служит для случая, когда на изоб- 
раженин могут присутствовать объекты еще большего размера, чем искомый. Тогда 
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пеленгующий фильтр сработает во всех точках объектов (не являющихся нскомымн), 
таких что его апертуры целиком поместятся на объекте (рис. 3.2.52). 

Поэтому необходимо добавить еще одно условне, которое ограничивало бы раз- 
мер обнаружнваемого объекта сверху. Эта можно сделать, добавив в ППР еще один 
процентильный фильтр, но с решением по нулю для апертуры в виде описанной рамкн- 
окаймления, как это сделано на рис. 3.2.526. Пусть фиксировано kos (0 < ky < noy), 
пж — число пикселов в окаймлении. ППР для пеленга c окаймленнем будет иметь вид 


" 1, если (сработал пеленг) ^ (число нулей в окаймлении ko 2 no, + 1 — ka); 
0, в противном случае. 


Пеленг с окаймленнем гарантирует, что обнаруженный на зашумленном изображении 
объект является изолированным объектом, а пе частью большего поля единиц. 


Окаймленио 6 


И, 
< { Ў 

у, 
ИГ 


"A 


1/07/15 


Рис. 3.2.52, Принцип действия фильтра enenesr с окаймлением» 


Метод иормализации фоиа. Метод нормализации фона был разработан для об- 
наружеиня малоразмерных объектов на полутоновых изображениях в составе слож- 
ных сцен и в присутствии интенсивных шумов. Он основан на использовании селек- 
тирующих свойств нелинейных окониых фильтров [164]. 

Как уже упоминалось выше, меднаиный фильтр с апертурой площадью 2M + 1 
эффективно подавляет локальные областн с линейным площадью менее Л! пикселов. 
Таким образом. возникает чрезвычайно важная практическая возможность комбинн- 
рованиой обработки прн обнаружеиин малых площадных объектов, заключающаяся 
B устраненин как импульсного шума, так н неоднородного фона за счет применения 
сочетания меднанных фильтров разного размера апертуры (puc. 3.2.53). 

На первом шаге здесь применяется обработка фильтром малой апертуры 
(3 x 3) + (5 x 5) для устранения импульсного шума. Затем осуществляется обработ- 
ка фильтром большой размериостн (например 35 х 35), оставляющая на изображении 
только фон H подавляющая полезный сигнал от объекта. На завершающем этапе 
производится вычитание из изображения, полученного на первом шаге, карты фо- 
на, полученной на втором шаге. Таким образом, окончательное обнаруженне объекта 
сводится к хорошо изученным процедурам сегментации по яркостн. Данный прием 
получил B теории названне нормализации фонс н позволяет обеспечить обнаружение 
сигнала от объекта даже при очень малых соотношениях сигнал/шум (< 1), одна- 
ко его практическое применение сдерживается необходимостью достижения высокой 
пронзводительностн вычислительной TeXHHKH, так как требуемый объем операций 
растет пропорционально квадрату размера апертуры. 
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Как видно из примера puc. 3.2.54-3.2.56. в зависнмостн от того. какую последова- 
тельность фильтров мы выберем, метод пормализацин фона может выделять объекты 
«положительного» или «отрицательного» контраста. 


ФИЛЬТР 2 
( с большой апертурой ) 


Рис. 3.2.53. Вылеление объектоз по схеме «пормалнзёцня фона» 


Рис.3.2.54. Исходное изобра- Рис.3.2.55. Результат порма. Рис. 3.2.56. Результат норма- 
жение лизации фона с параметрами лизапни фона с параметрамн 
(3.3,31.31) (31.31.3.3) 
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Класскческая процедура нормализации фона, являясь эффективным методом об- 
наруження простых объектов по признакам размера, может быть развита н усилена 
за счет применения морфологических (ММ Серра) методов обработки, которые поз- 
воляют стронть обнаружение объектов также по априорным данным об HX яркостно- 
геометрической структуре (модели). Процедуры математической морфологии Серра 
будут подробно рассмотрены в главе 6. 


3.2.5. Литература для самостоятельного изучения. В книге (Гонсалес, Вудс) 
[19] фильтрации изображений посвящен ряд разделов главы 3 н глава 5. В главе 3 
фильтрация рассматривается как один способов «улучшения изображения» в некото- 
ром общем смысле. В главе 5 рассматривается задача восстановления изображення, 
нскаженного помехами, имеющими некоторую заданную модель. При этом, помнмо 
рассматриваемой нами здесь достаточно наивной модели «пиксельного шума», pac- 
сматриваются также другие, достаточно сложные H содержательные модели искаже- 
ний. Линейные и нелинейные методь фильтрацин при таком изложении смешаны 
достаточно произвольным образом, зато возникает существенно более полное пред- 
ставление о задаче восстановления изображения. 


3.3. Линейная фильтрация изображений в пространственной и частотной 
области 


3.3.1. Линейная фильтрация изображений. Линейная фильтрация в простран- 
ственной области. Линейная оконная фильтрация изображений в пространствен- 
ной области заключается в вычислении линейной комбинации значений яркостн пик- 
селов в окне фильтрации с коэффициентами матрицы весов фильтра, называемой 
также маской илн ядром линейного фильтра. 

Рассмотрим вычисление такой лннейной комбинацин на примере окна фильтрации 
размером 3 x 3. При этом маска фильтра представляется матрицей внда 


Mask[-1,—1] Маѕк [0,-1]  Mask[L,—1] 
Mask[-1,0] Mask [0,0] — Mask[1,0] 
Mask[-1,1]] ^ Mask[0,1] Mask[l,1], 


а соответствующий фрагмент изображення с центральным пикселом Im(z, y], к кото- 
рому на текущем шаге применяется данный фильтр. имеет вид: 


Im[r-1,y-1] Im[ry-]] Im[z+1,y- 1) 
Іт [z — 1, y] Іт (2. y] Іт [х t 1, y] 
Im[r-l,y-] Im[z.y +1] Im[r-1,y- 1]. 


Результат лннейной фильтрации для данного окна (для данного центрального пиксе- 
ла) описывается следующей простой формулой: 


liWInX hWinY 


Im'[z. y] = У 2: Im[r + i, y + j]: Mask[z + i, y +j]. (3.3.1) 
i- -hWinX ја -МпҮ 


где hWinX = [WinX /2], hWinY = [WinY/2| — полуширина и полувысота окна unb- 
трацин соответственно (в случае окна 3 x 3 обе величины равны 1). 
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Результат применения операции (3.3.1) ко всем пнкселам изображения Im[r, y] 
называется сверткой изображения Im с маской Mask. 

Скользящее среднее в окне. Простейшим видом линейной оконной фильтрации 
в пространственной области является скользящее среднее в окне. Результатом такой 
фильтрации является значение математического ожидания, вычисленное по всем MHK- 
селам окна. Математически это эквивалентно свертке с маской, все элементы которой 
равны 1/п, где п — Число элементов маскн. Например, маска скользящего среднего 
размера 3 x 3 нмеет вид 


Рассмотрим пример фильтрации зашумленного полутонового изображения филь- 
тром «скользяшее среднее». Изображения зашумлены гауссовским аддитивным шу- 
мом (рис. 3.2.2-3.2.8). 

На рис. 3.3.1-3.3.6 приводятся примеры фильтрации полутонового изображения с 
различными степенями зашумления средним фнльтром с размером окна 3 x 3, Как 
видно из примера, фильтр «скользящее среднее» обладает меньшей способностью к 
подавленню шумовой компоненты по сравнению с ранее рассмотренным медианным 
фильтром 3 x 3, 

Рассмотрим скользящее среднее с ббльшими размерами окна фнльтрации, На 
рис. 3.2.23-3.2.28 приводится пример меднанной фнльтрацин с различными разме- 
рами апертуры. 

Как видно из рис. 3.3.7-3.3.12, с увеличением размера окна растет способность 
меднанного фильтра подавлять шумовую компоненту. Однако npH этом нарастает н 
эффект кажущейся «расфокуснровки» изображення (puc. 3.3.11, 3.3.12) за счет раз- 
мытня краев видимых объектов. Этого специфически присущего лннейным фильтрам 
эффекта размытия мы также не наблюдали в случае нелинейной ранговой фильтра- 
ции, 


Рис. 3.3.1. Слабая степень за- Рис. 3.3.2, Результат фильтра: 
шуиления ции исходного изображения сред- 
ним avr3 x З 
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Рис.3.3.3. Средняя степень за. Рис. 3.3.4. Результат филь. 
шумления "рации исходного изображения 
13 хиз 


Рис. 3.3.5. Сильная степень за. Рис. 3.3.6. Результат филь 
гумления трачии исходного июбражения 
ivt 3x3 


Рис. 3.3.7. Залумленное изобэза· Рис. 3.3.8. Результат средней ny- 
жение нейпой фильтрации avr 5 x 5 
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Рис 3.3.9. Результат резне ли Рис 3.3.10 Результат сжедней 


IUIS фальграци» ast зимечнойя $ и греции зго x9 


Рис. 3.3.11. Результат средней Рис. 3.3.12. Результат средней 
ликейной фильтрации avr 15 x 15 линейной фильтрацнн avr 34 х 31 


Гауссовская фильтрация. В предыдущем разделе мы рассмотрели «вырожден- 
ный» случай линейной фильтрации с однородной маской, Между тем, сама идея сверт- 
кн изображения с весовой матрицей аналогична ранее рассмотренной ндее введения 
весовой матрицы во взвешенных процентильных фильтрах. Повысить устойчивость 
результатов фнльтрацин на краях областей можно, если придать более близким точ- 
кам окрестности большее влняние на окончательный результат, чем дальним. Прние- 
ром реализацин этой илен для окна размера 3 x 3 является маска 


121 
Ten E. 
12 1 


Такая маска называется гауссовой; соответственно, н использующий ec липейпый 
фильтр также называется гауссовым. Используя дискретные приближення двумер- 
ной гауссовой функцин, можно получить и другне гауссовы ядра большего размера. 
Обратите внимание на то, что сглаживающие или фильтрующие маски линейных 
фильтров должны нметь сумму всех элементов, равную l. Данное условие норми- 
ровки гарантирует адекватный отклик фильтра на постоянный сигнал (постоянное 
изображение Im[r. y; = const). 
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На рис. 3.3.13-3.3.15 приведен пример гауссовой линейной фильтрации зашумлен- 
ного изображения. 


Рис. 3.3.13. Зашумленное изо- Рис. 3.3.14. Результат гауссо- Рис. 3.3.15. Результат гауссо- 
бражение вой линейной фильтрации вой линейной фильтрацин 
gauss3 x 3 gauss5 x 5 


3.3.2. Преобразование Фурье. Линейная фильтрация в частотной области. 
Линейная фильтрация изображений может осуществляться как в пространственной. 
так H в частотной области. При этом считается, что «низким» пространственным ча: 
стотам соответствуст основное содержание изображения — фон и крупноразмерные 
объекты, а «высоким» пространственным частотам — мелкоразмерные объекты, мел- 
кие детали крупных форм н шумовая компонента. 

Традиционно для перехода в область пространствепных частот нспользуются мето: 
ды, основанные на преобразовании Фурье. В последние годы все большее применение 
находят также методы, основанные на вейвлет-преобразовании (wavelet-transform). 

Преобразование Фурье. Преобразование Фурье позволяет представить практнче- 
ски любую функцию или набор данных в BHAC комбинации таких тригонометрических 
функций, как синус H KOCHHyC, что позволяет выявить перноднческие компоненты 
в данных н оценить HX вклад в структуру исходных данных илн форму функции. 
Традиционно различаются три основные формы преобразования Фурье: интегральное 
преобразование Фурье, ряды Фурье и дискретное преобразование Фурье. 

Интегральное преобразование Фурье переводит вещественную 
функцию в пару вещественных функций или одну комплексную функцию в другую. 

Вещественную функцию f(r) можно разложить no ортогональной системе трнго- 
нометрических функций, то есть представить в виде 


fl) = ака) сон(2таг) do — Lo 
0 D 
rae A(w) н B(w) называются интегральными косинус- H сипус-преобразованиямн: 
Tx Too 
A(w) = 2 | f(z)cos(2nwz)dr: B(w)=2 ] J (zx) sin(2nwz) dz. 


Ряд Фурье представляет пернодическую функцию (2), заданную на интер- 
вале [a,b], в виде бесконечного ряда по синусам и косннусам. То есть перноднческой 
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функцин f(T) ставится в соответствие бесконечная последовательность коэффициен- 


тов Фурье 
Ao = 27tzn 22 B.si rn 
пә de ew). nsin (22), 


nzl 


где 


b b 
Án = Z fies (==) йт В, = 2 f rem (Jas. 


Днскретное преобразование Фурье переводнт конечную последо- 
вательность вещественных чисел в конечную последовательность коэффнинентов Фу- 
рье. 
Пусть {2;}, i — 0,.... N — 1 — последовательность вещественных чисел — напри- 
мер, отсчеты яркости пикселов по строке изображения. Эту последовательность MOX- 
но представить в зиде комбинации конечных сумм внда 


№2 N/2 


2ni : т. 
Ti = ao + Уан ( У hasin ( w), 


1 
nzi nz 


где 


N-1I ; 
b = Z У asin (Z), i< k< №/2. 


Основное отличие между тремя формаин преобразования Фурье заключается B TON, 
что если иитегральное преобразование Фурье определено по всей области определе- 
пня функции f(x), то ряд и дискретное преобразование Фурье определены только на 
дискретном множестве точек, бесконечном для ряда Фурье н конечном для дискрет- 
ного преобразовання. 

Как видно из определений преобразования Фурье, нанболыний интерес для систем 
цифровой обработки сигналов представляет дискретное преобразование Фурье. Man- 
ные, получаемые с инфровых носителей или источников информации, представляют 
собой упорядоченные наборы чисел, записанные в внде векторов или матрни. 

Обычно принимается, что входные лапные для дискретного преобразования пред- 
ставляют собой равномерную выборку с шагом Д, прн этом величина Т = NA назы: 
вается длиной записи, или основным периодом. Основная частота равна 1/T. Таким 
образом, в дискретном преобразовании Фурье производится разложение входных дан- 
ных по частотам, которые являются целым кратным основной частоты. Макснмаль- 
ная частота, определяемая размерностью входных данных, равна 1/2A и называется 
частотой Найквиста. Учет частоты Найквиста имеет важное значение при нсполь- 
зовании дискретного преобразования. Если входные даниые имеют перноднческие 
составляющие с частотами, превышающими частоту Найквиста, то при вычислении 
дискретного преобразовання Фурье произойдет подмена высокочастотных данных бо- 
лее низкой частотой, что может привестн к ошнбкам прн интерпретации результатов 
дискретного преобразования. 
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Важным инструментом анализа данных является также энергетический спектр. 
Мощность сигнала на частоте W определяется следующим образом: 


P (w) = : (A iw}? + B (wy). 


Эту величину часто называют знергией сигнала на частоте w, Согласно теореме 
Парсеваля обшая энергия входного сигнала равна сумме энергий по всем частотам. 


N-1 N/2 
Е = У == У P (o3). 
{20 imQ 


График зависимости мощностн OT частоты называется энергетнческим спектром HJIH 
спектром мощностн. Энергетический спектр позволяет выявлять скрытые пернодично- 
сти входных данных н оценивать вклад определенных частотных компонент в струк- 
туру нсходных данных. 

Комплексное представление преобразования Фурье. Кроме тригонометриче- 
ской формы заниси дискретного преобразования Фурье широко используется KOM- 
плексное представление. Комплексная форма записи преобразования Фурье широко 
нспользуется B многомерном анализе H B частности при обработке изображений. 

Переход из тригонометрической в комплексную форму осуществляется на основа- 
нии формулы Эйлера 


cj"! = сов + jsinwi, ј = УСТ. 


Если входная последовательность представляет собой № комплексных чисел, TO ee 
дискретное преобразование Фурье будет иметь BHA 


(Y d 
* я | тя 
би у Tne 


п=і 


а обратное преобразование 


N-1 
птн 
тт = У Gae Ч”. 


Если входная последовгтельность представляет собой массив вещественных чисел, TO 
для нее существует как комплексное, так H CHHyCHO-KOCHHyCHOe дискретное преобра- 
зование. Взаимосвязь этих представлений выражается следующим образом: 


ао = Go, Ск = (а —j&)/2, I&k« N/2; 


остальные №/2 значений преобразования являются комплексно сопряженнымн н не 
несут дополинтельной ннформации. Поэтому график спектра мощности дискретного 
преобразовання Фурье сииметричен относительно №/2. 

Быстрое преобразование Фурье. Простейший способ вычисления днскретного 
преобразования Фурье (ДПФ) — прямое суминрование, оно приводит к N опера- 
циям на каждый коэффициент. Всего коэффициентов N, Tak что общая сложность 
O(N?). Такой подход не представляет практического интереса, так как существуют 
гораздо более эффективные способы вычисления ДПФ, называемые быстрым преобра- 
зованнем Фурье (БПФ), имеющее сложность O(N log №). БПФ применяется только к 
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последовательностям, имеющим длину (чнсло элементов), кратную степени 2. Нанбо- 
лее общий принцип, заложенный в алгоритм БПФ, заключается в разбнении входной 
последовательности на две последовательностн половинной длины. Первая последо- 
вательность заполняется данными C четными номерами, à вторая — C HeueTHbIMH. 
Это дает возможность вычисления коэффициентов ДПФ через два преобразования 
размерностью N/2. 
zn (8/2)-1 (N/2:-1 
Обозначим Wm = е, тогда Gm = » Тау, + У 223 (10 40 N. 
па п. 

Для т < №2 тогда можно записать Gm = Geven (m) + Goda (т) шт. Учитывая, что 
элементы ДПФ с индексом ббльшим, чем №/2, являются комплексно сопряженнымн 
к элементам с индексами меньшими №/2, можно записать (7, (муз) = Geven (m) — 
— Сова (m) оту. Таким образом, можно вычислить БПФ длиной N, используя два 
ДПФ длиной №/2. Полный алгорнтм БПФ заключается в рекурсивном выполнении 
вышеописанной процедуры, начиная с объединения одиночных элементов в пары, 
затем в четверки H так до полного охвата исходного массива данных. 

Двумерное преобразование Фурье. Дискретное преобразование Фурье для дву- 
мерного массива чисел размера M x N определяется следующим образом: 


N -1 M-1 
or - 2nj| а + 
Guu ==. У; У гле [+ v]. 
пж] m—l 
8 обратное преобразование 
N-1M-1 


Imn = >. X Guu? 89 e]. 


п-1 w-l 


В случае обработки нзображений компоненты двумерного преобразования Фурье на- 
зывают пространственными частотами. 

Важным свойством двумерного преобразования Фурье является возможность его 
вычисления C использованием процедуры одномерного БПФ: 


N 1 M-1 
1 1 2nimu =2пјпн 
Gu, = — — Emne М |е 
uw N >. M 2 mn , 


Здесь выраженне в квадратных скобках есть одномерное преобразование строкн мат- 
рицы данных, которое может быть выполнено с одномерным БПФ. Таким образом, 
для получения двумерного преобразования Фурье нужно сначала вычислить одно- 
мерные преобразования строк, записать результаты в исходную матрицу н вычислить 
одномерные преобразования для столбцов полученной матрицы. При вычислении дву- 
мерного преобразования Фурье низкие частсты будут сосредоточены в углах матрицы, 
что не очень удобно для дальнейшей обработки полученной информации. Для nepe- 
Вода получения представления двумерного преобразования Фурье, в котором низкие 
частоты сосредоточены в центре матрицы, можно выполинть простую процедуру, 3a- 
ключаюшуюся в умножении исходных данных на —1'"+", 
На рис. 3.3.16 показаны исходное изображение и его Фурье-образ. 
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Рис. 3.3.16. Полутоновое изображение н ero Фурье-образ (изображения получены а системе 
LabVIEW) 


Свертка c использованием преобразования Фурье. Свертка функций s(t) u r(t) 
определяется как 
ос 
зхт ё гжв E — 1)d1. 


oc 


На практике приходится нметь дело C дискретной сверткой, B которой непрерывные 
функции заменяются наборами значений в узлах равномерной сетки (обычно берется 
целочисленная сетка): 


Здесь —/ и P определяют днапазон, за пределами которого r(t) = 0. 

При вычислении свертки с помощью преобразования Фурье используется свойство 
преобразования Фурье, согласно которому произведение образов функций в частотной 
областн эквивалентно свертке этнх функинй вс временной областни. 

Для вычисления сверки необходимо преобразовать исходные данные в частот- 
ную область, то есть вычислить их преобразование Фурье, перемножить результаты 
преобразования н выполнить обратное преобразование Фурье, восстановив исходное 
представление. 

Единственная тонкость в работе алгоритма связана с тем, что в случае дискрет- 
ного преобразования Фурье (в отличне от непрерывного) происходит свертка двух 
пернодических функций, то есть наши наборы значений задают именно периоды этих 
функций, a не просто значення на каком-то отдельном участке осн. То есть алгоритм 
считает, что за точкой гл идет не ноль, а точка го, H так далее по кругу. Поэто- 
му, чтобы свертка корректно считалась, необходнио приписать к снгналу достаточно 
длинную последовательность нулей. DN 

Фильтрация изображений в частотной области. Линейные методы фильтрации 
относятся к числу хорошо структурированных методов, для которых разработаны 
эффективные вычислительные схемы, основанные Hà быстрых алгоритмах сверткн и 
спектральном анализе. В общем виде линейные алгоритмы фильтрации выполняют 
преобразование BHAA 


Pane J ] F(t- r, - КС) дп, 


где K(G,n) — ядро линейного преобразовгиня. 
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При дискретном представлении сигнала нитеграл B данной формуле вырождается 
во взвешенную сумму отсчетов исходного изображения в пределах некоторой зпер- 
туры. При этом выбор ядра К((,п) в соответствии с тем или иным критерием оптн- 
мальности может привестн к ряду полезных свойств (гауссовское сглаживание при 
регуляризации задачи численного дифференцирования изображения и др.). 

Наиболее эффективно линейные методы обработкн реализуются в частотной 06- 
ласти. 

Использование Фурье-образа изображения для выполнення операций фильтрации 
обусловлено прежде всего более высокой пронзводительностью таких операций. Как 
правило, выполнение прямого н обратного двумерного преобразования Фурье н умно- 
женне на коэффициенты Фурье-образа фильтра занимает меньше времени, чем Bbi- 
полнение двумерной свертки нсходного изображения. 

Алгоритмы фильтрацин в частотной области основываются на теореме o свертке. 
В двумерном случае преобразование свертки выглядит следующим образом: 


С (u,v) = H (u,v) F (u,v), 


где С — Фурье-образ результата свертки, H — Фурье-образ фильтра, a F — Фурье- 
образ нсходного изображения. То есть в частотной области двумерная свертка заме- 
няется поэлементным перемноженнем образов исходного изображення н соответству- 
ющего фильтра. 

Для выполнения свертки необходимо выполнить следующие действия. 

1) Умножнть элементы исходного изображения на —1”+", для центрирования 
Фурье-образа. 

2) Вычислить Фурье образ F(u,v), используя БПФ. 

3) Умножить Фурье образ F(u,v) ua частотную функцию фильтра H(u.v). 

4) Вычислить обратное преобразование Фурье. 

5) Умножнть вещественную часть обратного преобразования на — 1"*”. 
Как правило, фильтры описываются вещественными функциями, в этом случае KAMK- 
дый компонент Н умножается на соответствующие элементы действительной и MHH- 
мой части Фурье-образа изображения. Еслн исходная функция /(т,у) н фильтр H не 
комплексные, то результат свертки g(r,y) также должен быть вещественной фукк- 
цней. Однако на практнке обратное преобразование содержит паразитную иннмую 
составляющую, которую надо отбросить. 

Связь между функцией фильтра в частотной и пространственной областн можно 
определить, используя теорему о свертке 


$ [f (т, у) + (т, у)] = F (u,v) H (u,v), 


9 [f (z, y) h(z,y)) = F (u,v) * H (uv). 
CBeprka функции c импульсной функцией может быть представлена следующим об- 
830M: 
p м N 
УУ (х,у) (T — zo.y — yo) = s(ro. yo). 
z-»ym0 


Фурье-преобразованне импульсной функцин 


м N 


1 ET ; уу \ 
ғал) = 2. Yrs o i. 


2205-0 MN 
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Пусть f(r,y) = 5(z,y). тогда свертка 
1 
f (z.y) * h(z,y) = "TE 


[6 (2,9) * A(z, y)] = Фе H (u,v) = =H (9). 


Из этих выражений видно, что функции фильтра в частотной H пространственной 
областях взанмосвязаны через преобразование Фурье. Для данной функции фильтра 
в частотной области всегда можно найтн соответствующий фильтр в пространствен- 
ной областн, применив обратное преобразование Фурье. То же верно и для обратного 
случая. Используя данную взаимосвязь, можно определить процедуру синтеза npo- 
странственных линейных фильтров. 

1) Определяем требуемые характеристики (форму) фильтра в частотной областни. 

2) Выполняем обратное преобразование Фурье. 

3) Полученный фильтр можно использовать как маску для пространственной 
свертки, при этом размеры маски можно уменьшить по сравнению с размерами HC- 
ходного фильтра. 

Идеальный фильтр низких частот Н (u,v) имеет вид 


H(uv)-21, если D(u,v) < Dy, 


Н(и, 5) =0, еслн D(u,v) > Do, 


где D (u,v) = y (u — M)" + (v — X)? — расстояние от центра частотной плоскости. 


После свертки с этим фильтром Hà результирующем изображении появляются 
паразктные нскажения в BHAE полутоновых ложных границ. 
Идеальный высокочастотный фильтр получается путем ниверсин идеального 
низкочастотного фильтра: 
H' (u,v) 21 - Н(и, 5). 


Здесь проксходит полное подавление низкочастотных компонент при сохранении Bbi- 
сокочастотных. Однако как и в случае идеального низкочастотного фильтра, его npu- 
мененне чревато появлением существенных искажений. 

Для синтеза фильтров с минимальнымн искажениями используются различные 
подходы. Одним из HHX является синтез фильтров на основе экспоненты. Такие филь- 
тры привносят минимальные нскаження B результнрующее изображение н удобны для 
синтеза в частотной областн. 

Широко используемым при обработке изображений является семейство фильтров 
на основании вещественной функцин Гаусса. 

Низкочастотный гауссовский фильтр имеет вид 


h(z)- МпоАе2("92) y H(u)- Ae- 


Чем уже профиль фильтра B частотной области (чем больше о), тем он шире B 
пространственной. 
Высокочастотный гауссовский фильтр нмеет вид 


(т) = У2пол Ae ?(7242Y* RT Vanop Be ?(n9»2? : 


2 2 
H (u) = Ae ?*X – Be #5. 
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В двумерном случае низкочастотный фильтр гаусса выглядит следующим образом: 


- 2i) 
H(uv)-e 1%, 
Высокочастотный гауссовский фильтр HMCET вид 
_ ри, 


H(uv)-21-e ?"*. 


Рассмотрим пример фильтрации изображения (puc. 3.2.1) B частотной области 
(рис. 3.3.17-3.3.22). Заметим, что чгстотная фильтрация изображения может иметь 
смысл как сглаживания (низкочастотная фильтрация), так н выделения контуров 
H мелкоразмерных объектов (высокочастотная фильтрация). 

Как видно из рис. 3.3.17, 3.3.19, по мере нарастания «мощности» фильтрации в 
низкочастотной составляющей изображения все снльнее проявляется эффект «kaxy- 
щейся расфокусировкн» HIH размытия изображения. В то же время B высокочастот- 
ную составляющую, где в начале наблюдаются лишь контур: объектов. постепен- 
но переходит большая часть информационного содержания изобргження (рис. 3.3.18. 
3.3.20-3.3.22). 


Рис. 3.3.17. Низкоча нае фига Рис. 3.3.18. Нысок TET 


грация араметрами (10, 10 рация ораметрами (10.1 


Рис. 3.3.19. Низкочастотная филь- Рнс. 3.3.20. Высокочастотпая филь- 
трация с параметрами (50, 50) Tpau48 с параметрами (50.50) 


33 
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Рис. 3.3.21. Высокоча tran фи Рис. 3.3.22. Высоксча CIE 


" мет ми T 7 f E раметрами A] к 


Рис. 3.3.23 H à Рис. 3.3.24. ВЧ 


Рис. 3.3.25. НЧ-фильтрация за- Рис.3.3.26. ВЧ-фильтрацня зашум- 
шумлешюго изображения (50, 50) лениого Изображения (50, 50) 
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PacCMoTpHM теперь поведение высокочастотных н низкочастотных фильтров 
(рис. 3.3.23-3.3.28) в присутствии аддитивного гауссовского шума на изображении 
(рис. 3.3.7). 

Как видно из рис. 3.3.23, 3.3.25, свойства низкочастотных фильтров по подавленню 
аддитивной случайной помехи аналогичны свойствам ранее рассмотренных линейных 
фильтров — при достаточной мощности фильтра помехи подавляются, однако платой 
за это является сильное размытие контуров H «расфокуснровка» всего изображення. 
Высокочастотная составляющая зашумленного изображения перестает быть ннфор- 
матнвиой, так как Помимо контурной H объектовой информации там теперь также 
полностью присутствует н шумовая компонента (рис. 3.3.27, 3.3.28). 


Рис. 3.3.27. ВЧ-фильтрация зашум- Рис. 3.3.28. ВЧ-фильтрация зашум- 
ленного изображения (100, 100) ленного изображения (260, 200) 


Применение частотных методов нанболее целесообразно в случае, когда известны 
статистическая модель шумового процесса или/н оптическая передаточная функция 
канала передачн изображения. Учесть такие апркорные даиные удобно, выбрав B Ka- 
честве восстанавливающего фильтра обобщенный управляемый (параметрами си p) 
фильтр следующего внда: 


2 
F(wi,w2) = | l | " | |P(wi wo) 


P(ui,w2)] | |P(ui шо) + «(ил w)? 


где0<0<1,0<р<1 — назначаемые параметры фильтра, P(ui, w2) — передаточ- 
ная функция системы, Q(ui, шг) — стабилизатор фильтра, согласованный с энерге- 
тическим спектром фона. Выбор лараметров с = 1, u = 0 приводит к чисто инверсной 
фильтрации, с= џ = 1 к винеровской фильтрации, что позволяет получить H306- 
ражение, близкое к истинному в смысле минимума СКО при условин, что спектры 
плотиости мощности изображения H его шумовой компоненты априорно известны. 
Для дальнейшего улучшения эффекта сглаживания в алгоритм линейной (винеров- 
ской) фильтрации вводят адаптацию, основанную HA оценке локальных статистик: 
математического ожидания M (P) н дисперсин o( P). Этот алгоритм эффективно филь- 
трует засоренные однородные поверхности (областн) фона. Однако при попадании в 
скользяшее окно обработки неоднородных участков фона нмпульсная характеристика 
фильтра сужается ввиду резкого изменения локальных статистик, H 3TH неоднород- 
ности (контуры, пятна) передаются практически без расфокуснровки, свойственной 
неадаптивным методам линейной фильтрации. 
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К достоинствам методов линейной фильтрации следует отнести их ясный физи- 
ческий смысл н простоту анализа результатов. Однако прн резком ухудшении соот- 
ношения снгнал/шум, при возможных варнантах площадного зашумления н наличин 
высокоамплитудного импульсного шума линейные методы предварнтельиой обработ- 
ки могут оказаться недостаточными. В этой ситуации значительно более мощными 
оказываются нелинейные методы. 


3.3.3. Вейвлет-анализ. Вейвлет-анализ в отличне от Фурье-анализа опирается 
на специальные «малые волны» (вейвлеты), ограниченные во времени (в случае изоб- 
ражений — в пространстве). Это позволяет B вейвлет-представлении сразу иметь и 
частотную, H гространственную информацию. Вейвлет-аналнз предназначен, прежде 
всего, для одновременного анализа изображения в нескольких масштабах, который 
получил название кратномасштабного анализа. 

Пирамида изображений. Исторически первой структурой для анализа изображе- 
ний в различных масштабах являлась так называемая пирамида изображений. 

Изображение сцены может быть представлено в различных пространственных MAC- 
штабах. При этом крупные детали сцены лучше видны на изображениях с мелким 
(грубым) разрешением. Мелкие детали сцены проявляются только на изображениях 
с высоким разрешением. Информатнвкость участков изображения также зависит OT 
разрешения. Изображение, представленное в нескольких масштабах, в дальнейшем 
называется пнрамндой. 

Использование пирамндальной структуры данных в алгоритмах обработки нзоб- 
ражений нмеет две осковные цели: 

1) сокращение временн обработки изображений; 

2) определение более точных начальных приближений для обработки нижних 
уровней по результатам обработки верхних уровней. 


Уровень N 


(хм Ум) 


Уровень №-1 


(Хм, Ума) = (2х уу) 
Рис. 3.3.29. Принцип построекия пирамиды изображений 


Принцип построения Пирамиды изображений показан на рис. 3.3.29. Пирамида пред- 
ставляет собой последовательность N изображений, причем каждое последующее 
изображение получается из предыдущего путем прорежнвання в два раза. 

Если позволяют вычислительное ресурсы, то для подавления высокочастотных 
шумов рекомендуется перед прореживанием использовать низкочастотную линейную 
фильтрацию. В качестве ядра линейного фильтра обычно выбирают функцию Гаус- 
са. В этом случае пирамида называется гауссовой. Согласно теореме Котельинкова 
сжатие в гауссовой пирамиде пронсходнт с минимальной потерей информации. 

Изображение fwiz.y) представляет собой уменьшенную копию исходного изобра- 
ження f(x. y). Размер пиксела изображения уровня N равен 


рк = 9N-1. 
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Для координат пикселов изображений двух произвольных уровней пирамиды C 
номерами n H т справедливы следующие соотношения: 


2-1 = 2” тт, 


2" = oma 


Помимо гауссовых пирамид изображений, часто рассматриваются также пирами- 
ды лапласианов. Для построеиня такой пирамиды выполняется следующая операция: 
на каждом уровне гауссовой пирамиды выше нулевого текущее нзображенне увели- 
чивается в два раза по каждой координате (при этом его размер становится равен 
размеру изображения на предыдущем уровне пирамиды), после чего вычисляется его 
разность с предыдущим уровнем. Получившийся результат также представляет собой 
пирамиду изображений, эквивалентную результату применения оператора Лапласа 
соответствующего масштаба (см. описание оператора Лапласа ниже в разделе 3.4). 

Вейвлет-преобразование. Вейвлет-преобразование — это математнческий ни- 
струмент для нерархнческой декомпозиции функций. С помощью вейвлетов функции 
представляются как компознция грубой низкочастотной аппроксимации H уточняю- 
щих компонент (деталей), представляющих отсутствующие в аппроксимации элемен- 
ты графнка функции. Вне зависимостн от BHAA функции (изображенне, кривая, по- 
верхность) вейвлет представляет функцию как нерархню уровней отображения с раз- 
личной точиостью детализации. В процедурах предобработки изображений вейвлет- 
преобразование используется для уменьшения уровня шумов, анализа текстур, выде- 
ления контуров объектов H сжатия изображений. 

Для одномерного случая любая произвольная ннтегрируемая функция может быть 
представлена в виде линейной комбинации ортогональных фуикций 


f(z) = Y eeiz). 
í 
где Q;(r) — базисные функции, a с; — весовые коэффициенты. 


Коэффициенты этого представления определяются из соотношення 


t2 


/ f(z)es(z)dz, 


1 
Cn = LÀ 
Iles? 


где 


t 
lies? I fono dt 


ti 


есть квадрат нормы, или энергия базисной функции Фф, (т). 

Такое представление называется обобщенным рядом Фурье. Обобщенный ряд Py- 
pbe при заданной системе базисных функций н конечном числе слагаемых N обеспе- 
чивает нанлучший синтез по критерню минимума среднеквадратнческой ошибки. Так 
как базксные функции в разложении фикснрованы, то вся ниформация о функции 
f(z) содержится в весовых коэффициентах. 

В своей простейшей форме базнсные функцин могут быть представлены как сме- 
щенные вдоль простраиствеиной илн временной осн единичные нмпульсные функцин. 
Такое отображение дает представленне о локальных (пространственных HJIH времен- 
ных) параметрах функцин. Если в качестве базнсиой функции выбрана синусонда, 


33 ЛИНЕЙНАЯ ФИЛЬТРАЦИЯ 149 


то получается известное преобразование Фурье — дающее информацию о поведении 
частотных (спектральных) компонент функцин f(T). Однако во многих приложениях, 
включая обработку изображений, необходимо одновременно иметь информацию н о 
пространственных, и о спектральных характеристиках функции f(x). 

Вейвлет-преобразование сигнала — это ero представление в виде обобщенного 
ряда Фурье или интеграла Фурье по системе базисных функций, локализованных как 
в пространственной, так и в частотной областях. Примером такой базисной функцин 
может служить вейвлет Хаара, который определяется выражением 


1, при0<1< 1/2, 
e(t) 4—1, при 1/2<#<1, 
0 при0<#, > 1. 


Графическое нзображенне вейвлета Хаара приведено на рис. 3.3.30. 

Однако пространственные (времениые) н частотные 
характеристики не могут быть одновременио измерены 
со сколь угодно высокой точностью. Точность измере- 
ния пространственных характеристик Ах H частотных 
характеристик AW ограничена снизу соотношением Гей- 
Зенберга 


1 
ArAw > z 


Рассмотрим процесс разложения сигнала F(6) в си- 
стеме базисных функций Хаара. Первая базисная функ- рис. 3.3.30. Вейвлет Xaapa 
ция, B ОТЛИЧНе OT всех последующих, представляет собой 
прямую линию. В случае нормированиого базиса {ф„(#)} свертка первой базисной 
функции с исходным сигналом будет определять его средиес зпачение. Последую- 
щие базисные функции разложения Хаара представляют собой масштабируемые по 


Ф, 
Pro Ф, 


Pio Ф, Ф, 


Рис. 3.3.31. Вид базисных функций Хаара для различных масштабов 
Степени 2 сдвинутые «ступеньки», представленные выше на рис. 3.3.30. Таким обра- 


зом, система базисных функций Хаара в дискретном пространстве должна задаваться 
двумя параметрами: сдвига u частоты (масштаба): 


oat) = 7 e(—). 
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где а — масштаб базисной функции; b — сдвиг. В дискретном случае параметр mac- 
штаба а = 2"', где т — любое целое положительное число, параметр сдвнга b = k27, 
Таким образом, все мпожество базкспых фуикций можно записать как 


Фтк (1) = Jm o (2^"n — К). 


На puc. 3.3.31 представлен вид базисных функций Хгара для различных масшта- 
бов. 

В результате разложения исходный сигнал точно опнсывастся коэффициентами 
вейвлет-преобразовання Хаара. 

Для вейвлет-преобразования, так же как и для ДПФ, существует алгоритм быст- 
poro преобразовгння. Рассмотрим преобразование Хаара. Из рис. 3.3.3] видно, что 
функции с малым масштабным коэффициентом а используют те же отсчеты сигиа- 
ла для вычисления коэффициентов, что и функции с большим масштабным коэф- 
фициентом. При этом операция суммироваиия одних H тех же отсчетов повторяет- 
ся неоднократно. Следовательно, для уменьшения объема вычислений целесообразно 
вычислять Вейвлет:преобразовапне с самого малого масштабного коэффициента. B 
результате получаем вейвлет-коэффициенты, представляющие собой средине зпаче- 
пия Ск = (Г, + 7,44)/2 и разиостн Су.) = (rj — 1,1) /2. Для коэффициентов Ск = 
= (x; + 21+.) /2 повторяем данную процедуру. При этом усреднение коэффициентов 
(Ci + Cixi1)/2 будет соответствовать усреднению четырех отсчетов сигнала, но 
при этом расходуется одна операцня умножения H одна операцня умноження н OA- 
na операция сложепня. Процесс разложения повторяется до тех пор, пока не будут 
вычислены все коэффнциенты спектра. 


] * 


Рис. 3.3.33. Пример двумерного вейвлет. преобразования Хаара 
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Двумерное вейвлет-преобразование строится по тому же принципу, что н двумер- 
ное преобразование Фурьс, то есть сначала вычисляются одномерные преобразования 
строк и по полученной матрице коэффициентов вычисляются вейвлет-преобразовання 
столбцов, 

На рис. 3.3.32 представлены исходное изображение, а ка puc. 3.3.33 — четыре 
компонента вейвлет-образа. Размер каждого компонента в два раза меньше соответ- 
ствующего линейного размера исходного изображения. 

Возможности вейвлет-преобразований по локализации частотно-пространственных 
особенностей исходного сигиала используются для алгоритмов подавления шумов H 
сжатия. Прк этом пронзводится подавление малых коэффициеитов разложення, что 
позволяет восстанавливать сигналы с высокой степенью подобия к исходному снгна- 
лу, однако при этом уменьшается влияние слабых шумовых сигналов н снижается 
объем информации, необходимый для представления сигнала. На основе вейвлет- 
преобразования разработаи самый современпый на сегодня стандарт сжатня нзобра- 
жений /РЕС2000. 


3.3.4. Литература для самостоятельного изучения. В kuure (Гонсалес, Вудс) 
[19] задаче фильтоации изображений посвящен ряд разделов главы 3 и глава 5. В 
главе 3 фильтрация рассматривается как один способов «улучшения изображения» в 
некотором общем смысле. В том числе, помимо сглаживающих фильтров, рассмотре- 
ны M фильтры, предназкаченные для повышения резкости. В главе 5 рассматривается 
задача восстановления изображения, нскаженного помехамн, имеющимн некоторую 
заданную модель. При этом рассматриваются достаточно сложные н содержательные 
модели искажений — пространственные н частотные. Описаны Вниеровская филь- 
трация и фильтрация c регуляризацией no Тнхонову. Глава 4 посвящена частотным 
методам улучшення изображений, в ней подробно описаны частотные фильтры на базе 
преобразования Фурье. Глава 7 посвящена вейвлетам н кратномасштабной обработке. 
Подробность изложения всех вопросов достаточно высокая. Данная книга нанлуч- 
шим образом подходит для самостоятельного изучения темы «Линейная фильтрация 
в частотной и пространственно-частотной областн». 

B kuure (Форсайт, Понс) [41] линейной фильтрации посвящена глава 7. Объем 
нзложения достаточно сжатый H соответствует данному вводному курсу. 

В кинге (Шапиро, Стокман) |49] линейной фильтрации посвящен ряд разделов 
главы 5. 


3.4. Выделение контурных точек 


3.4.1. Задача выделения контурных точек. Выделение контурных точек на бинар- 
ном изображении — задача вполие тривнальная. Здесь коитуриой точкой является 
любая точка, такая что в ее ближайшей окрестности (средн ее ближайших сосе- 
дей) имеется хотя бы одна точка, значение которой отличается от значения данной 


Точки. 
Рассмотрим задачу выделения краев на полутоновом изображении. Пусть полуто- 


новое изображение представляет собой двумерную функцию яркостн (ннтенсивностн 
сигнала) /(т,у). определенную на ограииченной прямоугольной областн X, называс- 
мой «кадром». Традиционно рассматриваются две модели «края»: «ступенька» H «H3- 
лом». «Ступенька» предполагает скачкообразное изменение яркости вдоль некоторого 
контура на изображении. Точки контура типа «ступенька» являются, таким образом, 
точками разрыва для функции f(z.y). Край типа «излом» — это совокупность точек 
разрыва первой производной фуикции f(x,y). Если же считать, что функция ярко- 
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сти непрерывна и два раза непрерывно днфференцируема во всех свонх точках, TO 
«ступенчатым» краевым точкам соответствуют точки смены знака второй производ- 
ной (максимума первой производной), а «нзломным» краевым точкам — точки смены 
знака первой производной (локальные максимумы яркостной функинн). Иллюстрация 
этих идей для случая одномерной функцин 
(например, профиля строки или столбца) npu- 
Ле. у) ведена на рис. 3.4.1. 


3.4.2. Операторы вычисления произ- 
водных. Задачу понска контурных точек дей- 
$ ствительно удобно решать в териннах пронз- 

f& у водных. Однако при этом необходимо иметь 
6 в виду следующие два существенных заме- 
чання. Во-первых, говоря o взятин производ- 
ных двумерной функции, мы говорим о ие- 
лой совокупностн разнообразных операторов. 

Под первой пронзводкой может пониматься 
* как вектор-градиент, характеризуемый ампли- 

тудой н направленнем, так н различные пронз- 
х водные по направлению, определяемые толь- 
ко одним значением. Под второй производ- 
ной также могут подразумеваться различные 
двумерные дифференциальные операторы. Во- 
вторых. задача вычисления производных на 
дискретном зашумленном изображении ABNA- 
ется, вообще говоря, некорректной (по Адама- 
ру). Как показано в работах школы академика 
Тихонова [42], эту задачу можно сделать кор- 
ректной при помощи регуляризацин, то есть 
путем наложения на функцию {(т,у) н ее производные дополнительных условий. B 
практическом плане это означает, что прежде чем взять пронзводную. изображение 
необходимо отфильтровать (сгладить) тем илн иным способом. 

Наиболее простым методом выделения края, не основанным на дифференциро- 
вании, является метод «сенсорных пар». Суть этого метода обнаружения «crynen- 
чатого» края состонт в непосредственной оценке величнны перепада яркости для 
кусочно-постоянной модели изображения. Для этого в каждой точке изображения 
рассматриваются пары прилегающих «сенсорных полей» прямоугольной формы, rpa- 
ница между которыми проходит через исследуемый пиксел. Оценнваются средние 
значения яркости для каждого сенсорного поля отдельно, н модуль разности меж- 
ду HHMH характеризует ннтенсивность перепада яркости в данной точке в направ- 
ленин, перпендикулярном граннце сенсорных полей. На области постоянной яркости 
будет зафиксирован нулевой перепад. а в точках контура — максимальный (если 
ориентация сенсорной пары соответствует ориентации контура в этих точках). Xo- 
тя для теоретического обоснования метода нет необходимостн в предположении о 
дифференцируемости функции яркости, легко заметить, что вычисляемое значение в 
некотором смысле является аналогом производной по направлению. Так что onepa- 
Тор «сенсорная пара», вычисляющий в каждой точке перепад яркости для конкрет- 
ной ориентации сенсорных полей, не является инварнантным к повороту. Поэтому 
на практике всегда нспользуется набор из нескольких (как правило, шести) различ- 
ным образом ориентированных сенсорных пар. После обработкн изображения полным 
набором сенсорных пар каждая точка характеризуется ориентацией сенсорной пары, 


Ле. y) 


Рис. 3.4.1. Идея определения краевых пере- 
падов нитеисивиости Типа «ступенька»: а — 
фуикция нитеисивиости на границе перепа- 
да; б — первая произаодная фуикции; в — 
вторая произаодная фуикции 
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для которой было вычнслено максниальное значение перепада яркости, н величиной 
этого максимального перепада. Таким образом, применение набора сенсорных пар 
дает результат, аналогичный градкенту (в форме «угол-амплитуда»), причем opHeH- 
тация определяется достаточно грубо. выбором одного из нескольких фиксированных 
направлений. 

Из методов обнаружения края при помощи различных дифференциальных опера- 
торов на сегодняшиий день наиболее широко нспользуются следующие операторы: 
Робертса (Roberts), Собела (Sobel). Mappa (Marr) н Канн (Canny). 


3.4.3. Операторы вычисления векторов градиентов. Операторы Робертса н 
Собела непосредственно вычисляют значения компонент вектора-граднента для каж- 
дой точки изображения путем свертки (см. выше в разделе «линейная фильтрация») 
локальной окрестности точкн с малоразмерными маскамн 


1 0 0 -1 
М, = ‚ M= 3.4.1 
170 и Con 0 (34.1) 
для оператора Робертса, н 
10 -l 12 1 
M:=|2 0 –2|, М=| 00 о (3.4.2) 
1 0 -1 -1 2 -1 


для оператора Собела. 

Практические нсследовання показывают, что оператор Робертса (рис. 3.4.2. 3.4.3) 
не является в достаточной мере помехозащищенным, оператор же Собела (рис. 3.4.4- 
3.4.7) обеспечивает вполне удовлетворительные результаты npH обработке реальных 
изображений. 

Непосредственным результатом применения оператора Собела является вектор- 
граднент (Yr, gy). не являющийся инварнантным к повороту изображення. Однако он 
может быть приведен к BHAY (А, ф), где 


А= \/92 +92; Фф = асі (2) l (3.4.3) 


Величина А не зависит OT угла разворота, а величина ф для любых однонменных 
точек двух нзображеннй, развернутых друг относительно друга на угол dọ, будет 
отличаться только на константу dọ. Так же, как в методе «сенсорных пар», величина 
А характеризует интенсивность перепада яркости в точке; величина (P — направление 
нормали к контуру в точке. Доказано, что точность углового разрешения для приве- 
денных масок размера 3 x 3 составляет примерно 4°. Известны маски размера 5 х 5, 
прн помощи которых достигается еще большее угловое разрешение. Учитывая, что 
вычисление ф на практике реализуется табличным способом, можно сделать вывод, 
что оператор Собела эффективнее в вычислительном плане и обеспечивает большую 
точность, чем метод «сенсорных пар», являясь при этом действительно инварнантным 
к поворотам нзображення. 
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Рис. 3.4.2. Оператор Робертса: Рис, 3.4.3. Оператор Робертса: 
результат свертки с маской АГ! результат сверткр с маской Ma 


Рис, 3.4.4. Оператор Собела: вер: Рис. 3.4.5. Оператор Собела: ro- 
тикальные контуры (маска Л!,) ризоитальные коитуры (маска My) 


Рис. 3.4.6. Оператор Собела: ам. Рис. 3.4.7. Оператор Собела: по: 
плитуда градиенга ле направлений градиеита 


34 ВЫДЕЛЕЙНЕ КОПТУРИЫХ ТОЧЕК 155 


3.4.4. Операторы Mappa n Лапласа. Рассмотрим операторы вылелення краев, 
основанные на вычислении симметричных круговых производных. 

Простейшим оператором такого рода является оператор Лапласа. Оператор Ла- 
naaca (Лапласиан) 3 х 3 нмеет маску следующего вида: 


-] -1 -1 
-1 8 -lj 
-1 -1 -1 


Такую маску можно HHTepripeTHpoBaTb как сумму разностей центрального элемента с 
каждым из 8 его ближайших соседей. Таким образом, в равной степени учитываются 
возможные перепады яркостн во всех награвленнях (puc. 3.4.8, 3.4.9). 


Pac. 3.4.8. Пример работы опера- Рис,3.4.9. Пример работы one- 
тора Лапласа: Лапласиаи 3 x 3 ратора Лапласа: Лапласиаи 5 x 5 


Оператор Марра выделения краев «ступенчатого» тнпа основан На понске точек 
пересечения нуля второй пространственной производной /(т.у). Для этого использу- 
ется оператор Лапласа V?, где V — оператор Гамильтона (&. A. примененный после 
сглаживания изображения гауссовским линейным фильтром с симметричной маской 
С(о. г,у), или непосредственно осуществляется свертка с маской У2С(6, 2, у). Этот 
фильтр известен также как РГР-фильтр (разность гауссовских распределений), так 
как форма маски V?G(c) хорошо аппроксимнруется разностью гауссовских масок 
G(ai) - С(02) с соотношением о; /62 - 1.7. В работе [217] показано, что РГР-фильтр 
является также хорошим приближением точного решения задачи регуляризацин для 
оператора Лапласа прн наложенном на f(.r.y) условии минимума среднего квадрата 
второй производной. 

Оператор Mappa является инварнантным к повороту, если носителем его маски 
является круговая область. Этот оператор не вычисляет в явном BHAE направления 
нормали к контуру. В то же время, для определения множества контурных точек нет 
пеобходнмости вводить искусственный порог (по модулю градиента). как в градн- 
ентных методах, ONH определяются непосредственно как точки пересечения пулевого 
уровня на отфильтрованном нзображенин. Еще одним удобиым свойством операто- 
ра Марра является то, что получающиеся контуры не имеют разрывов. Возможна 
масштабная настройка алгорнтма путем выбора значения параметра о. 

Как видно на prc. 3.4.10-3.4.13, по мере увеличения зиачения параметра с one- 
ратор Марра выделяет все более н более крупные элементы изображения. Прн этом 
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форинруемые данным оператором контуры продолжают сохранять характерную за 
мкнутую форму. 


Рис. 3.4.10. Hex ioe изображи Рис. 2.4 1 lpr ue реботы one 
Myr paropa Mappa (« A 


Рис. 3.4.12. Пример работы оле- Рис, 3.4.13. Пример работы one- 
paropa Mappa (c = 2.0) ратсра Mappa (o = 3,0) 


3.4.5. Постобработка контурного изображения. Локализация края. Г раднент- 
ные операторы выделяют даже незначительные перепады HHTCHCHBHOCTH (puc. 3.4.14), 
поэтому необходимо решить вопрос, какой из перепадов действительной является 
краем, а какой является результатом наличия шумов на исходном нзображеннн. 

Одинм из способов решения поставленной задачи является пороговая фильтрация, 
осповная идея которой заключается в фильтрации точек. значения перепадов B ко- 
торых меньше определениого порога. При этом значение модуля гргднента G(r,y) в 
каждой точке изображения сравнивается с некоторым порогом. Точки, перепад нн- 
тенсивиости в которых меньше порога, считаются шумами н фильтруются: 


0, ecan G(z, y) ST, 
1. если С(т,у) > T. 


G(r.y)- 


Порог фильтрации может быть фиксирован HAH определятся адгптивно. Выбор порога 
являстся одним из осповных вопросоэ локализации краев. Высокий уровень порога не 
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позволит обнаружить слабовыраженные края. Низкий уровень порога явится причн- 
ной того, что шум будет ложно принят за край. Например, может быть использована 
следующая модификация снгма-фильтра: 


T = М + «c, 


ге х — параметр фильтрации; Мо — среднее значение модуля градиента; с — значе- 
нне СКО модуля градиента изображения. 


Рис.3.4.14. Результат подчеркивания краев: а — исходиое изображение; 6 — модуль градиеита 
«зображення 


Таким образом, результатом процедуры локализации краев является бинарное 
изображение, в котором точки, принадлежащие краю, отличны от нуля. Результат 
локализации краев представлен на puc. 3.4.15. 

Утончение контура. Завершающей процедурой этапа выделения краев является 
зтончение. Основная задача процедуры утончения — получение контурного препа- 
рата единичной ширины поперечного сечения. Использование процедуры утончення 


АЕ 
, P" 
А 
АЕ. . 
i a RN й S 
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Рис. 3.4.15. Результат локализа- Рис. 3.4.16. Результат уточиекия 
ции краев (с = I) градиеитного изображеиня 


обусловлено существенным упрощеннем процедур описания H распознавания объек- 
тов. Существует ряд требований, предъявляемых к алгоритмам утончення: 

eecaH объект — связный. то результат утончения должен быть связным (операция 
утончення не должна менять топологию объекта); 
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эсредияя линия. полученная после утончения должна проходить через точки C 
нанбольшим значением интенсивности. 
Например, может быть использован алгоритм утончення, на вход которого постугает 
полутоновое изображение, полученное в результате выполнения следующей алгебра- 
нческой операции: 


I = lg- Ip, 


где Гс; — граднентное изображение (результат работы оператора дискретного диффе- 
ренцирован ня): 7j — бинариое изображение (результат пороговой фильтрации). 
Утончен не полутоновых изображений является более сложной задачей, чем утон- 
чение бинарных изображений. Идея такого алгоритма может заключаеться. например, 
в Поиске точек на изображении, нмеющих максимальное значение проекцин градн- 
ента в направлении, перпендикулярном направленню края в точке. В каждой точке 
изображения / производится проверка условня. н если точка не является локальным 
максимумом в направлении, нормальном к паправлеиню края, то она исключается из 
дальнейшего рассмотрения. Результатом работы алгоритма является бипарное изоб- 
раженне, на котором контурные точки выделены черным цветом (puc. 3.4.16). 


3.4.6, Литература для самостоятельного изучения. В книге (Гонсалес, Вудс) 
[19] задача выделения контурных точек рассматривается в разделе 10.1. Объем изло: 
жения достаточно сжатый н соответствует данному вволному курсу. 

В книге (Форсайт, Понс) [44] определению краев посвящена глава 8. Задача 
выделения краев изначально рассматривается B контектсте борьбы с шумом и HCKà- 
жениями. Изложение ндей сглаживания при выделении контуров может быть peko- 
мендовано для дополинтельного изучения. Представляют интерес библиографические 
замечания в разделе «Примечания». 

B книге (Шспиро, Стокман) [49] рассмотрение задачи обнаружения краев почему: 
то проводится в главе 5, посвященной фильтрацин H улучшению изображений. Тем 
не менее, изложение достаточно полиос H также может быть рекомендовано для изу: 
чення, Отдельно в разделе 10.3.2 описан популярный детектор краев Kannu. 

Несмотря на То, что оператор Марра и даже теория зрения Марра-Хилдред крат- 
ко описаны во всех перечисленных учебинках, рекомендуем ознакомиться с ней в 
первонсточнике [30]. Болес четкого изложения вы не найдете. 


3.5. Контрольные вопросы и задачи 


К раздели 3.1. 

1) Почему сведение задач обработки н анализа изображений к задачам обработ- 
кн H анализа гистограмм, профилей н проекций увеличивает быстродействие систем 
компьютерного зрения? 

2) Что такое гистограмма изображения? Какие виды гистограммной обработки вы 
знаете? Что такое локальная гистограммная обработка? Для чего используется LUT? 

3) Чем отличается процедура эквализации от процедуры нормализации яркости? 

4) Что такое бинаризация изображения? Что такое гистограммная бннаризация? 
Что такое бимодальная гистограмма н каков критерий Отсу для оптимальной бина- 
ризацик бимодальных нзображений? 

5) Как осуществляется яркостная (гнстограммная) сегментация изображения. ние- 
ющего несколько выраженных мод гистограммы? Почему автоматнческое определеине 
числа мод гистограммы — иекорректная задача, H как она решается? 

6) Какие модели цветовых пространств вы знаете? Как они связаны между собой? 
Как осуществляется цветовая сегментация изображений? 
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7) Как формируются профили и проекции? Что они собой представляют? В чем 
разница между профилями н проекциямн с точки зрения миформации об изображе- 
нии, которую оин содержат? В каких задачах может применяться анализ профилей н 
проекций? 


К разделу 3.2. 

8) Что такое пиксельный шум? Чем отличается аддитивный шум от шума замеще- 
ния? Что такое шум «соль и перец», какова сго математическая модель? Что такое 
гауссовский аддитивный шум, какова его математическая модель? 

9) Как осуществляется оконная фильтрация изображений в пространственной об- 
ласти? Что такое «апертура фильтра»? Что такое «размер окиа фильтрации»? 

10) Какие типы бинарных окоиных фильтров вы знасте? Для решения каких задач 
онн используются? 

П) Что такое бинарный меднанный фильтр? Каковы основные свойства бинарного 
меднаниого фильтра? 

12) Почему фнльтры «расширение» н «сжатие» всегда используются в паре? Какие 
задачи они рашают? 

13) Задача. Пусть на изображеини нмеется одна связная область яркостн 1, окру- 
женная фоном яркостн (). Площадь ее составляет 110 инкселов, а габаритные разме- 
ры — 12 x 13 пикселов. Каковы должны быть минимальные размеры квадратного окна 
фильтрации, чтобы меднаиный фильтр целиком удалил эту область с изображения? 

14) Задача. Пусть на изображении имеется одиа связная область яркости 0), окру: 
женная фопом яркости 1. Область представляет собой квадрат 11 x 11 пикселов. Ha- 
рисуйте (схематично), как будут выглядеть результаты фильтрации этого нзображе- 
ния меднаиным фильтром с размером окна 11 x 11 пикселов. 

15) Задача. Ha бинариом изображении три связные области: 


Размеры квадратов 100 x 100 пикселов, расстояние между ними — 10 пикселов. 

а) Какую последовгтельность фильтров «расширение» н «сжатие» следует при: 
менить к данному изображению, чтобы исчез белый перешеек между квадратами? 
Сколько циклов «расширения» и «сжатиие следует для этого провести? 

б) Какую послеловательность фильтроз «расширение» н «сжатие» следует приме- 
нить к данному изображенню, чтобы па изображении осталась одна связная область? 
Сколько циклов «расширения» H есжатня• следуст для этого провести? 

16) Что такое порядковые статистики? Как осуществлиется ранговая оконная филь- 
трацня полутоновых изображений? Как вычисляется полутоновая меднана? Каковы 
основные свойства полутопового медиаиного фильтра? 

17) Задача. В aneprype меднанного фильтра 3 x 3 наблюдаются следующие значе- 
ния пикселов: 
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Каково будет выходное значение меднанного фильтра H в какой пиксел оно будет 
записано? 

18) Задача. В апертуре меднанного фильтра 5 x 5 наблюдаются следующие значе- 
ния пикселов: 


Каково будет выходное значение меднанного фильтра H в какой пиксел оно будет 
записано? 

19) Если уровень шума на нзображеинн увеличивается, то для борьбы с ним размер 
окна медианной фильтрации нужно увеличивать или уменьшать? 

20) Если минимаксный фильтр применить к бинарному изображению. какой Ón- 
нарный фильтр получится? 

21) Каковы принципы «быстрой» реализации медиаиного фильтра для бинарных и 
полутоновых изображений? Существуют ли «быстрые» реализации других ранговых 
фильтров? 

22) Какие элементы на нзображенин чаще всего «портят» оконные фильтры, борясь 
с шумами? Какие задачи, помимо борьбы с шумаин, могут решать пространственные 
оконные фильтры? Что такое «метод нормализации фона»? 


К разделу 3.3. 

23) Как осуществляется лниейная оконная фильтрация в пространственной обла- 
стн? Какова роль маски при линейной оконной фильтрации? 

24) Задача. В гпертуре фильтра «скользящее среднее» 3 x 3 наблюдаются следу- 
ющие значення пикселов: 


EIEI 
[4| 5| 6, 
7 [819 


Каково будет выходное значение н в какой пиксел оно будет записано? Совпадет 
ли оно с меднаной н почему? 

25) Задача. В апертуре фильтра «скользящее среднее» 3 х 3 наблюдаются следу- 
ющие значения пикселов: 


Каково будет выходное значение H в какой пиксел оно будет записано? Совпадет 
ли оно с меднаной и почему? 

26) Задача. В гиертуре фильтра «скользящее среднее» 5 x 5 наблюдаются следу- 
ющне значения пикселов: 
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Каково будет выходное значение н в какой пиксел оно будет записано? 

27) Сравните свойства трех фильтров — полутоновой меднаны, скользящего сред- 
него н гауссовского фильтра при одинаковых размерах okua фильтрации. В чем будут 
наблюдаться различия? Как ведут себя фильтры на краях контрастных областей? Как 
борются с аддитивным гауссовским шумом? С однополярным шумом? 

28) Задача. Линейный оконный фильтр c гауссовской маской применяется к u306- 
ражению постоянной яркости. Изменится лн изображение, и почему? 

29) Что такое преобразование Фурье? Что такое «частота Найквиста» и как она 
определяется? Почему преобразование Фурье выполияется в комплексной области? 

30) Как выполняется двумерное преобразование Фурье? Что такое «пространствен- 
ные частоты»? 

31) Что такое «свертка» двух сигналов (изображений), H как она выполняется B 
частотной области? 

32) Как осуществляется линейная фильтрация изображений в пространственной 
области? Чем отличаются идеальные частотные фильтры от фильтров с различной 
функцией окна? Какую ниформацию содержат высокочастотные составляющие изоб- 
раження? 

33) Что такое пирамида изображений? 

34) Что такое вейвлет-преобразование? Чем оно отличается от преобразования 
Фурье? Какую информацию содержат различные элементы вейвлет-образа нзображе- 
ния? Почему вейвлет-преобразование называется кратномасштабным? Почему область 
вейвлет-преобразования называется простраиствеино-частотной? 


К разделу 3.4. 

35) Какие типы краевых точек вы знаете? 

36) Почему для выделения краевых точек нспользуются операторы, вычисляющие 
производные? Как использовать значения первой и второй производной снгнала для 
выделения краев типа «ступенька»? Как это делать в двумериом случае? 

37) Почему задача вычисления производных Hà дискретном зашумлениом изобра: 
жении являстся некорректной? Как она решается на практике? 

38) Какие операторы выделения контурных точек вы знаете? Запишите их маски. 

39) Какую информацию о контурной точке содержит вектор-градиент? 

40) Сравните операторы Собела н Марра. В чем их основные отличия? Почему 
оператор Собела имеет две macku, а оператор Mappa одну? Ha что влияет изменение 
параметра о в операторе Mappa? 

41) Почему бывает необходима постобработка контурного препарата, н как она 
проводится? 


3.6. ПРАКТИЧЕСКИЕ ЗАНЯТИЯ по теме «Обработка изображений» 


3.6.1. Гистограмма н гистограммная обработка. С гистограммой и гистограммной 
обработкой в системе Pisoft можно познакомиться, в первую очередь. при помощи 
закладок «Гистограмма» и eLUT» окна просмотра изображення, описанных выше B 
подразделе 2 6. 

Кроме этого, имеется ряд спецнализированных фреймов для работы с гистограм- 
мой в группах «2D — 10е, «_0Т-преобразовання» н «Разное. Необходимо также 
отметить, что многие фреймы фильтрации изображений из группы «Pisoft 8.0» могут 
одинаково работать как C двумерными массивами (нзображеннямн). так и с одномер- 
ными массивами (профилями, проекциямн H гистограммамн). 
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Рассмотрим с помощью схем, собранных в программе Pisoft, использование фрей- 
мов, реализующих процедуры гистограммной обработки. 

На puc. 3.6.1 и рис. 3.6.2 показаны собоаиная схема преобразовання таблицы отоб- 
ражения яркости (LUT), исходное и нормалнзованное изображения, гистограммы HC- 
ходного H нормализованного изображений н таблица отображения яркости (LUT) нор- 
мализованного изображення. По нсходному изображению (окна слева на puc. 3.6.1 и 
рис. 3.6.2), загруженному в фрейм Im Import]. собирается гистограмма (фрейм Histl). 
Результат отображен в средием окне нижнего ряда окон на рис. 3 6.1. В меню фрейма 
ШОТ-преобразоваянй (LUTI) выберем функцию преобразовання зходного сигнала — 
«Нормализация». Результат преобразования LUT показан на puc. 3.6.2 в среднем окне. 
На выходе фрейма ОТ -преобразоваиня (LUTIml) получено нормализованное нзоб- 
ражение (на рис. 3.6.1 — окно справа вверху, на рис. 3.6.2 — окно справа). 

Если в меню фрейма СОТ-преобразований (LUTI) выбрать функцию преобрг- 
зования входного сигнала «Эквализаций», получим эквализованиое изображение 
(рис. 3.6.3 и puc. 3.6.4). 

Использование встроенного преобразования LUT в фрейме LUTI (ркс. 3.6.5 к 
рис. 3.6.7) дает возможность изменить яркостную картину изображения, выбрав в 
контекстном меню фрейма закон преобразования LUT. На puc. 3.6.5 показан резуль- 
тат применения экспоненциального преобразования. При выборе пункта меню «Co- 
здать EXP LUT» появляется дналоговое окно (puc. 3.6.6), в котором можно задать 
степень экспоненты. 

Меню фрейма LUTIm н результат построения LUT по логарифмическому закону 
представлены ua puc. 3.6.7. 
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Рис. 3.6.1. Фреймовая схема преобразования яркости. Нормализация. Гистограммы 
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Рис. 3.8.2. Фреймовая схем образования яркости Нормализация | k ta 
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Рис. 3.6.3. Фреймовая схема прсобразоваиня яркости, Эквализация, Гистограммы 
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Рис. 3.6.5. Экспоненциалыьюе преобразование LUT 
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Рис. 3.6.6 Дизлоговое окно мспонечицкального преобразования LUT 
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Рис. 3.6.7. Логарифмическсе преобразование LUT 


3.6.2. Бинаризация и сегментация. С бинаризацией в системе Р!зо можно no: 
знакомиться, в первую очередь, при помощи закладки «Гистограмма» окна просмотра 
изображения, описанного выше в подразделе 2.6. Там имеется возможность выбирать 
порог бинаризации вручную. перемещая движок управляющего элемента в окне, а 
также автоматически выбирать оптимальный порог Orcy. При этом все преобразова: 
ния изображения осуществляются через LUT, используются только для визуализации 
и He влияют на значения пикселов. 

Для того чтобы сформировать бинарное изображение, которое можно было бы ис- 
пользовать для дальнейшего анализа (например, для выделения связных областей), 
необходимо использовать сиециализнрованные фреймы. Например, схема hist, otsu 
(рис. 3.6.8) позволяет бинаризовать полутоновое изображение по методу Отсу и no- 
лучить в результате выходное бинарное изображеине. 

По исходному изображению. загружаемому в фрейм Іт, собирается гистограмма 
(фрейм Hist). Полученный в результате обработки гистограммы порог Отсу (меню 
фрейма HistBin) подается на вход фрейма пороговой бинаризаиии Binary. Способ 
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Рис.3.6.9. Меию 
фрейма бипаризации 
Binary 
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Puc. 3.6.8. Бичаризация порогом Отсу 


бинаризации изображения по порогу выбирается B меню фрейма 
Binary (puc. 3.6.9). 


3.6.3. Профилн n проекцин. С профилямн H проекциямн 
в системе Pisolt можно познакомиться, в первую очерель, npu 
помощи закладок «Проекция», «Профиль» н «ХУ-профиль» окна 
просмотра изображения, описанных зыше в подразделе 2.6. 

Кроме этого, имеется ряд специализированных фреймов для 
работы с профилями и проекциямн в группах «20-10» u «ID- 
функции». Необходимо также отметить, что миогне фреймы 
фильтрации изображений нз группы «Р!50'{ 8.0» могут одинаково 
работать как с двумериымн массивами (нзображениямн), так нс 
одномерными масснвамн (профилями, проекциямн и гнстограм- 
мами). При этом, например, в процедурах оконной фильтрации 
слелуст указывать размер окна по горизонтали, а по вертикали 
указывать размерность 1. 

С помощью фрейма XYProf построения профилей изображе- 
ния можно исследовать яркостные профили изображения: вдоль 
оси г — горизонтальный профиль (рис. 3.6.10} и вертикальный 
профиль — вдоль оси у (рис. 3.6.11). При движении указателем 
мыши по исходному изображению (окна слева на рис. 3.6.10 и 
рис. 3.6.11) отрисовываются горизонтальная и вертикальная лн- 


нии. соответственно. По нажатию левой клавиши мыши линия на исходном изобра: 
жении фиксируется. и фрейм XYProí произзодит построение грофиля вдоль линни. 
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Рис. 3.6.11. Построение вертикального профиля изображения 
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В отличне от профиля изображения, проекция, являясь интегральной характерни 
стикой, отображает сумму яркостей по каждому столбцу изображения (вертикальна; 
проекиия) или по каждой строке (горизонтальная проекция). На рис. 3.6.12 изобра 
жена схема. позволяющая собрать и горизонтальную, и вертикальную проекцин. E 
фрейм Im Import загружается изображение штрих-кода, которое подается на фрейк 
Proj построения проекций. Фрейм Рго]2 строит вертикальную проекцию (правое ниж. 
нее окно изображений), а фрейм Projl — горизонтальную проекцию (окно изображе 
ния справа сверху). На графиках проекций видно. что при однородном фоне проекцир 
позволяют определить местоположение объектов, в данном случае штрих-кода. 

Фреймы на закладке 1О-функции позволяют производить исследования одномер- 
ных сигналов. В фреймах данной группы реализованы возможности свертки сигналов 
интерактивный режим выделения фрагмента на одномерном сигнале, определение ло: 
кальных экстремумов, анализ статистических гипотез о форме сигнала. 


Рис. 3.6.12. Построение вертикальной и горизонтальной проекций изображения. Исходное изобра. 
жение — в окие виизу слева; вертикальная проекция — в окне внизу справа 


3.6.4. Цветовые пространства. В системе РбоН работе с цветом посвящена 
отдельная закладка палитры фреймов, которая так и называется — «Цвет». 

Схема. приведенная на рис. 3.6.13, используя фрейм Grey, преобразовывает цвет- 
ное изображение в полутоновое (см. вклейку). 

Фрейм Color дает возможность преобразовывать одни цветовые модели изобра- 
жений в другие. Полезность преобразований можно проиллюстрировать на примере 
выделения области лица лица. На исходном изображении (окно слева на рис. 3.6.14) 
довольно трудо подобрать такой набор цветов RGB, который позволит однозначно 
сегментировать лицо. На данном изображении цветовое пространство HSV (правое 
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Рис.3.6.14. Преобразование цветовых моделей изображсчия 
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окно изображения) позволяет найти сочетание цветовых компонент, при которых лицс 
выделяется достаточно хорошо. 

Фреймы работы с цветом также можно использовать для визуализацин различ- 
ных результатов обработки полутоновых и бинарных изображений. Например. если 
мы хотим увидеть результаты бинаризации поверх исходного изображения, можно ис: 
пользовать фрейм объединения RGB каналов «Merge» и подать на его вход по всем 
каналам исходное изображение, а по одному из каналов (скажем, по красному) - 
бинарпое для улучшения визуального контраста. В результате красным иветом будет 
показана бинаризация, а в снне-зеленом диапазоне той же картинки мы увидим исход: 
пое изображение. Если такое отображение кажется вам неестественным, рекомендуем 
сделать алгебраическую операцию OR (ИЛИ) между исходным изображеннем и ÓH- 
наризованным изображением, умноженным на 255 — тогда изображение за пределами 
бинаризованной зоны, показанной красным, будет выглядеть в точности так же, как 
исходное полутоновое, а не сине-зеленым, как прежде 


3.6.5. Моделирование шумов. Для моделирования шумов в системе Pisoit 
используется фрейм «Noise» из закладки «Разное». Параметры зашумления уста- 
павливаются в диалоговом окпе (рис. 3.6.18), вызываемом из пункта меню фрейма 
«Параметры шума». Можно выбрать равномерное зашумление в указанном Analia- 
зоне (рис. 3.6.17), либо гауссовское с заданным СКО (рис. 3.6.18). Шум «соль-перец» 
в этом фрейме непосредственно не реализован, однако его можно смоделировать. 
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Рис.3.6,15. Моделирование шумои. Окиа изображений слева иапрано: |) бипарное изображение n 
полутоповом формате (0...255); 2) изображение, зашумлениое равномерным шумом; 3) бипаризо- 
ванное зашумлениое изображение (2): 4) изображение. зашумлениое гауссовским шумом с СКО 100: 
5) бипаризовапиое зашумленное изображение (4) 
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Рис.3.6.16. Диалоговое Рис. 3.6.17. Диалоговое 
окно параметров окно параметров 


Соберем фреймовую схему (рис. 3.6.15). Превратим исходное 
бинарное, загруженное в фрейм Im, в полутоновое. Для этого c 
помощью фрейма Mono унарной алгебры (закладка «Алгебра») | *. 4 
умножим (пункт меню «Умножение») (puc. 3.6.18) исходное би- [om 
нгрное изображение на 255 (вводим константу B появившемся Cameo 
дналоговом окне). Таким образом яркостный днапазон изменится 1o -—X 
с бинарного [0...1] на байтовый — полутоновый [0...255). Изобра- 
жение осталось двухяркостным (первое окно слева на рис. 3.6.15) 
(значения яркости 0 и 255), т.е. бинарным по сути. 

Наложим шум, используя фрейм Noise. Второе слева изобра- 
жение — результат наложения на исходное изображение равно- | 
мерного шума в диапазоне 0...255, а второе справа — результат 
наложения гауссовского шума с СКО 250. Фреймом Binary бипа- 
ризуем зашумленное изображение. Выбираем пункт меню «Боль- Е 
We» 4 вводим значение порога — любое число большее 0, но MeHb- ха нм 
шее 255. В данном случае 127. | 


3.6.6. Бинарная фильтрация. При изучении процедур Ón- 
нарной фильтрации в системе Pisoft используются фреймы «Bu- 
нарная морфология», «Сглаживание», «Нормализация фона» и Рис.3.6.18. Меню 
«Утончение» из закладки «Pisoft 8.0» палитры фреймов, а tak- фрейма Mono упар: 
же фреймы «Простая морфология» и «Нелинейная фильтрация» пой алгебры изобра- 
из закладки «Фильтр». жений 

Фреймовая схема (bin. fIt) (рис. 3.6.19) обрабатывает зашум- 
ленное бинарное изображение. Используемый здесь прием моделирования шума рас- 
смотрен в предыдущем пункте. 

Исходное бинарное изображение (крайнес левое окно) превратим B полутоповое 
домножением на 255 (фрейм Мопо унарная алгебра). Второе слева изображение — 
результат наложения на нсходное изображение гауссовского шума с СКО 250. Для 
зашумления был использован фрейм Noise. Фреймом Binary бинаризуем зашумлен: 
пое изображение, чтобы ггрименить к нему процедуры бинарной фильтрацин. В tpe- 
тьем и четвертом окнах изображений помещены результаты обработки медианными 
фильтрами Зх 3 H 9 x 9 соответственно. Размер окна, в котором строится медиана. 
устанавливается в дналоге (рис. 3.6.21), появляющемся при выборе соответствующего 
пункта меню фрейма NonLin (рис. 3.6.20). 

Полученный в правом окне изображения результат дает основание считать, что 
медианная фильтрация (маской 9 x 9) хорошо справляется с достаточно сильно за: 
шумлепным изображением. 
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Рис.3.6.19. Нелинейная бипариая медианиая фильтрация изображеиня. Okia изображений слева 
направо: 1) исходное изображение; 2) изображение. зашумлеиное гауссопским шумом с СКО 250: 
3) изображение, отфильтроваииое мелиаиным фильтром 3 x З; 4} изображение, отфильтроваииое 
медианиым фильгром 9 x 9 
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Рис. 3.6.20. — Копгекстисе меню Рис. 3.6.21. Диалоговое окно 
фрейма NonLin иелкиейной фильтэа: фильтров фрейма пеличейной 
ции изображений фильтрации изображений 


3.6.7. Ранговая нелинейная фильтрация изображений. При изучении проце- 
дур нелинейной ранговой фнльтрацни в системе Pisolít используются фреймы «Сгла- 
живание» и «Нормализация фона» из закладки палитры фреймов «РіѕоЇ! 8.0», а также 
фреймы «Простая морфология» н «Нелинейная фильтрация» из закладки •Фильтр». 
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Puc. 3.6.22. Нелкиейиая фильтрация полугоиовых изображений, зашумлечиых равномерным шумом 
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Рис. 3.6.23. Нелинейная фильтрация полутоновых изображений. зашумлеиных гауссовским шумом 
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Рис.3.6.24. Meauaunan фильтрация н разница с исходным изображеинем 


На рис. 3.6.22 и рис. 3.6.23 представлена обработка зашумленных изображений 
меднанными фильтрами 9 x 9 из фрейма MED группы «Фильтр». На рис. 3.6.22 ис- 
ходное изображение зашумлено равномерным шумом в яркостном диапазоне ()...200, 
а на рис. 3.6.23 — гауссовским шумом с СКО 50. 

На рис. 3.6.24 показан другой варнант схемы для медианной фильтрации. в ко- 
торой используется фрейм FSmth из >руппы «Pisoít 8.0». В данном случае фильтр 
применяется к незашумленному изображению и демонстрируется разница исходного 
и отфильтрованного изображений. 


3.6.8. Простая морфология. Процедуры расширения/сжатия реализованы в 
фрейме SMorph (закладка «Фильтр»). При вызове определенной морфологической 
операции из меню фрейма появляется диалог, в котором нужно задать число итера- 
ций, необходимое для совершения выбранной морфологической операции. 

Интересно сравнить полученные результаты простой морфологии с результатами 
морфологической обработки, приведенными в разделе 6.4. Можно заметить, что при- 
менение пяти итераций с квадратным структурирующим элементом 3 х 3 для каж- 
дой из морфологических операций (рис. 3.6.25-3.6.28) соответствует однократному 
использованию структурирующего элемента в форме круга диаметром || пихселов 
(рис. 6.5.4-6.5.7). 


3.6.9. Минимаксная фильтрация. Схема flt min-max реализует минимаксную 
фильтрацию изображений. Изображение, зашумленное равномерным шумом в яркост- 
ном диапазоне 0... 100, обрабатывается сначала минимальным фильтром 7 х 7, а nosy- 
ченный результат — максимальным фильтром 7 x 7 (puc. 3.6.29). Сравнивая получен- 
ный результат (крайнее правое изображение) с исходным (крайнее левое изображе-) 
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Рис. 3.6.26. Результат обработки изображения морфологическим оператором эрозни Ісжатия) с na- 
-икратным применением с-руктурирующего элемента 
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Рис. 3.6.26. Результат обработки изображения морфологическим оператором лилатации (расшире- 
ния) с гятикратиым применением структурирующего элемента 


176 ОБРАБОТКА ИЗОБРАЖЕНИЙ ГЛ. 3 


ESAMI "T 
Midi ыы. [[|-.-ы — u it 
A Lr оја мј 

to pa A ‚ L-— l—— 
-— —— 0 

2 ] Маву а: 

p] ig 


Рис. 3.6.27. Результат обработки изображенин морфологическим оператором откџытив с пятикрат- 
NSM применением структурирующего элемента 
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Рис. 3.6.28. Результгт обработки изображения морфологическим оператором закрытия с пятикрат- 
ным применением структурнруюшего элемента 
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Рис. 3.6.29. Минимаксная фильтрация нзображеннй Окна нзображеннӣ слева паправо: 1) исходное 
изображение: 2) нзображение. зашумлениое ревномезным шумом в диапазоне 0... 100; 3) результат 
обработки минимальным рапгом в окне 7 x 7; 4) результат обработки максимальным рапгом в окпе 
7х7 


ние можно сделать вывод о TOM, что минимаксная фильтрация хорошо справляется C 
восстановлением среднезашумленных изображений, 

Действне миннмаксной фильтрации можно сравнить с морфологическими фильтра- 
мн (см. выше раздел ‹простая морфология»). Действительно, обработка мнинмальным 
рангом аналогична операции «эрозия», а обработка максимальным рангом — «дила- 
тацни». 


3.6.10. Линейная фильтрация изображений в пространственной области. 
Простейшая процедура линейной фильтрации реализована в фрейме FSmth (закладка 
«Писофт 8.05). 

Чтобы выполнить сглаживание по средиему, выберем соответствующий пункт Me- 
ню фрейма FSmth н укажем размеры окна фильтрацин WinX н WinY в диалоге «Па- 
раметры фильтра» (рис. 3.6.30). Результат сглаживания находится в среднем окне. 
Для большей наглядности работы этой процедуры возьмем разность исходного M 
сглаженного изображений, используя фрейм ALU алгебры изображений (закладка 
«Алгебра»). На полученном изображении разностн (правое окно) заметно появление 
мелкого шума н контуров лейкоцитов. Данные элементы изображения относятся к 
высокочастотной составляющей. 

Результат эксперниента подтверждает теорию, что линейная фильтрация подавля- 
ет высокие частоты на H30ÓpaxeHHH, 

С помощью фреймовой схемы сопу, в которой используется фрейм Сопу из заклад- 
ки «Фильтр», можно исследовать применение линейной пространственной фильтрации 
с заданными типами масок к зашумленным изображениям (puc. 3.6.31). Исходное 
изображение зашумлено равномерным шумом B яркостном днапазоче 0)...:200 (второе 
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Рис. 3.6.30. Сглажинание скользящим средним. Okia изображений слева направо: 1) исхолное изоб- 
ражение; 2) изобргжение. сглаженное средним с окном 5 х 5; 3) разность исходного и сглаженного 
изображений 
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Рис. 3.6.31. Лнисйная фильтрация изображений. Окна изображений слева направо: 1) исходное 
изображение: 2) изображение. зашумлениое равкомерным шумом в диапазоне 0...200: 3) изобра: 
жение, отфильтровапное процедурой размыгия аппертурой 5 х 5; 4) изображение, отфнльтрованное 
гауссианой 5 x 5 
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Рис. 3.6.32. Меню фрейма Flmprv фильтрации улучшения 
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слева изображение). В контекстном меню фрейма Сопу выберем пропедуру размытия 
з окне 5 x 5 и гауссовскую фильтрацию с аппертурой 5 х 5. Результаты обработки 


для сравнения помещены, соответственно, в окна З и 4. 


3.6.11. Улучшение изображений. Фрейм Flmprv фильтрации улучшения ( 


за- 


клалка «Писофт 8.0») позволяет пронзвести улучшенне контраста, увеличение резко- 


сти, усредненне яркости. 


Для запуска процедуры улучшения контраста исходного изображення (окио 
слева на рис. 3.6.33) выберем в меню фрейма Flmprv пункт «Контрастирование» 
грис. 3.6.32). Введем размеры фильтра WinX, WinY и коэффнциситы А, В в okie 
лналога «Параметры фильтра» Обработанное изображение вьвелено в окію справа 
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Рис. 3.6.33. Улучшение коптраста нзображення 
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Рис. 3.6.34. Увеличение резкости 
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Рис. 3.6.35. Снгма-фильтрация с апертурой 5 х 5. сигмой 2,5. Okna изображений слева направо: 
1) нсхолное нзображение 2) изображенне, отфнль-ровапное сигма-фнльтрацией в окне 5 х 5, снгмой 
2.5; 3) разность исходного v отфильтрованного изображений 
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Аналогично, выбрав в меню фрейма Flmprv пункты «Увеличение резкости» H 
«Усреднеине яркости» и заполнив поля диалога «Параметры фильтра», получим более 
качественные изображения (рис. 3.6.34 и puc. 3.6.35. 


3.6.12. Фурье- и вейвлет-преобразования. Линейная фильтрация в частотной 
области. Различные частотные и пространственно-частотные преобразования изоб- 
ражений позволяют исследовать фреймы нз закладки «Трансформации», включающей 
фреймы прямых н обратных преобразований Фурье (а также свертку в частотной 
области), дискретных косинусных н вейвлет-преобразований. 

На примере (рис. 3.6.36) нзображенне, зашумленное равномерным шумом в AHA- 
пазоне 0...200, подвергнуто низкочастотной фильтрации на основе преобразования 
Фурье. В фрейме FFTI выполняется низкочастотная фильтрация с параметрами '/'1 = 
= T2 = 10 (третье изображение в нижнем ряду), а в фрейме FFT2 — низкочастотная 
фильтрация с параметрами Т1 = Т2 = 20 (крайнее правое нзображенне). 
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Рис. 3.6.36. Фильтрация изображений па основе преобразований Фурье. Окна изображений слева 
направо: 1) исходное изображение; 2) изображение, зашумлениое равномерным шумом в яркостном 
диапазоне 0...200; 3) результат низкочастотной фильтрации с параметрамн T'I = Т2 = 10; 4) резуль. 
тат инзкочастотной фильтрации с параметрамн TI = T2 = 20 


Преобразование Фурье осуществляет перевод изображения из пространствениой 
областн в частотную H обратно — из частотной в пространственную (обратное пре: 
образование Фурье). В пространственной области свертка нзобэажсиня с маской, 
например, при фильтрации изображения, соответствует персмиожепкю изображения 
с маской в частотной области. С ростом размера маски операция CBepTKH становится 
ощутимо затратной и использование преобразования Фурье может дать существенный 
вынгрыш в скоростн вычислений. 
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Рис. 3.6.37. Пример фильтрации изображения в частотной области 
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Рис. 3.6.38. Вейһлет-преобразование Хаара. Окна изображений слела папрашг: |) исходное изобра: 
жение: 21-5) четыре окна изображений — лекомпозниия нсходного изображения вейнлетом Хаара: 
6) восстановление изображения обратным преобразозаниех 
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Ha рис. 3.6.37 представлен eine один пример фильтрации изображения в частот- 
пой области: использование фрейма FFTForw прямого преобразования Фурье; фрейма 
Conv, фильтрующего полученное изображение в частотной области; фрейма FFTinv 
обратного преобразования Фурье, преобразующее отфильтровагное изображение в ча- 
стотной области в изображение в пространственной областн; а также фреймов Convert 
преобразования форматов. применяемых для согласования форматов изображений, об- 
рабатываемых фреймами. 
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Рис. 3.6.39. Дискретное косинусиое греобразоваине 


3.6.13. Выделенне контуров на полутоновых нзображениях. Операторы вы- 
деления контуров реализованы в фреймах FEdg (закладка «Писофт 8.0») н Сопу 
(закладка «Фильтр»). 

В фрейме Conv фильтрации (линейной сверткн) (закладка «Фильтр») реалнзова- 
ны процедуры иизкочастотной (сглаживание) и высокочастотной (выделение красв) 
фильтрации. Рассмотрим процедуры краевой (высокочастотной) фильтрацин. 

Ha рис. 3.6.40 н рис. 3.6.41 продемопстрировано применение операторов Собела 
для выделення соответственно горизонтальных н вертнкальных контуров. 

B фрейме FEdg также реализован оператор Собела, причем здесь вы также можете 
увидеть в качестве выходного результата угол и амилитуду вектора-граднента. 

Результат обработки оператором Лапласа 3 x 3 показан на puc. 3.6.42, а операто- 
ром Лапласа 5 x 5 — на рис. 3.6.43. 

Также операторы выделения контуров реализованы в фрейме FEdg (закладка «Пн- 
софт 8.0»). 

Выбран пункт «Фильтр Собела» в меню фрейма FEdg н пажав в появившемся ana- 
nore кнопку выбора el'panweur no X и У», обработаем исходное изображение (окно 
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слева на рис. 3.6.44) и получим изображения модулей градиента по вертикали (окно B 
центре) и горизонтали (окно справа). Этот результат можно сравиить с нзображенн- 
ями выделенных контуров горизонтальным (рис. 3.6.40) и вертикальным (рис. 3.6.41) 
операторами Собела, реализованных в фрейме Conv. 

А если B окие диалога (рис. 3.6.45) нажать кнопку «Модуль и угол», получим 
обобщенный модуль градиента по вертикали н горизонтали (окно в центре) и изобра- 
жения направления градисита (окно справа). 

Рассмотрим работу процедуры «Барельеф» (рис. 3.6.46). Выберем соответствую- 
щий пункт меню фрейма FEdg и в окне диалога введем параметр Alpha. 

Еще один оператор выделения контуров, включенный B фрейм FEdg. — опера- 
тор Mappa. В меню фрейма FEdg выберем пункт «Фильтр Mappa» (рис. 3.6.47). 
В появившемся диалоге (рис. 3.6.48) заладим параметр сигмг в пределах от Hy- 
ля AO трех, а также вид отображаемых результатов: контурный препарат (кнопка 
«Край»), знак производной (кнопка «Знак») (рис. 3.6.49). сегментация (кнопка «Сег- 
мептация»). 

На рис. 3.6.47 па полученном изображении контуриого препарата интересно Ha- 
блюдать свойство оператора Mappa — то, что получающисся контуры не имеют раз- 
рывов. 
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Рис. 3.6.40. Выделение контуров горнзоитальпым оператором Собела 
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Рис. 3.6.42. Выделение копгуров оператором Лапласа с маской 1 > 1 
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Рис. 3.6.44. Вьлеленне контуров вертикальным н горизонтальным операторахи Собела. Окпа H396- 
ражений слева направо: 1) исходное изображение лейкоцитов: 2) вертикальные контуры: 3) горизон- 
гальные контуры 
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Рис. 3.6.46. Выполнение процедуры «Барельеф» 
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Рис. 3.6.48. Оператор Mappa (o - 2). Отображение результата сегментации 
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Puc. 3.6.49. One»arop Mappa (с = 2). Отображение знака производной 


ГЛАВА 4 


АНАЛИЗ ИЗОБРАЖЕНИЙ 


4.1. Выделение и описание характерных элементов изображения 


4.1.1. Задача выделення характерных черт. Вплоть до 80-х годов прошлого века 
основным классом алгоритмов обнаружения н идентификации объектов, нспользо- 
вавшихся в бортовых системах технического зрения, являлся класс корреляционно- 
экстремальных алгоритмов [26]. Однако по мере возрастания требований к точности 
и надежности алгоритмов обнаружения все более сложных объектов во все более 
сложной реальной обстановке недостатки данной группы методов стали проявлять- 
ся все более явно. Это. прежде всего, высокая вероятность аномальных ошибок, 
необходимость иметь большое число эталонов для описания разноракурсных обра- 
зов трехмерных объектов, неустойчивость по отношению к яркостно-геометрической 
изменчивости изображений, имеющей место в реальных условиях регистрации. Та- 
ким образом, наметился переход от корреляционных детекторов заданных образов к 
методам и алгоритмам структурного анализа изображений. 

В настоящее время последовательность процедур обработки изображений принято 
рассматривать в соответствии C так называемой паралигмой Mappa [30]. Эта rapa- 
дигма, предложенная Д. Марром на основе длительного изучения механизмов зри- 
тельного восприятия человека, утверждает, что обработка изображений опирается на 
несколько последовательных уровней восходящей информационной линии «Икониче- 
ское представление объектов (растровое изображение, неструктурироваиная информа- 
ция) — символическое представление (векторные и атрибутивпые данные в CTDyKTypH- 
рованной форме, реляциоиные структуры)» и должна осуществляться по модульному 
принципу посредством следующих этапов обработки: 

® предобработка изображения: 

® первичная сегментация изображения; 

e выделение геометрической структуры видимого поля; 

® определение относительной структуры и семантики видимой сцены. 

Связанные с этими этапами уровни обработки обычно называются обработки пиж: 
него, средиего и высокого уровней, соответственно. В то время как алгоритмы обра- 
ботки нижнего уровня (фильтрация простых шумов, гистограммигя обработка) могут 
рассматриваться как хорошо проработанные и детально изученные. алгоритмы сред: 
него уровия (сегментация) продолжают сегодня оставаться цеитральным полем при: 
ложення исследовательских усилий. За последние годы значительный прогресс был 
достигнут по отношению к проблемам сопоставления точек и фрагментов изображе- 
ний (matching) [142]. |176] выделения признаков внутри малых фрагмеитов [153], 
[172], [215]. высокой точиости 30-позиционирования точек [175], [178], что подра- 
зумевает соответствующее моделирование и калибровку датчиков н нх комбинаций, 
выделенне простых яркостно-геометрических структур тига «точка», «край», «пятио», 
«прямая линия», «угол» [135]. [136]. [176]. [204], [215]. Эти «первичные» особенности 
изображения, также пазывасмые характерными чертами (ХЧ), играют базовую роль 
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при составлении яркостно-геометрических моделей объектов и разработке робастных 
алгоритмов их выделения. 

На рис. 4.1.1 приведена классификация характерных черт (ХЧ). которые могут 
присутствовать на изображениях. 
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Рис. 4.1.1. Оснозные типы характерных черт 


Характерные черты на изображении имеют следующие виды атрибутов. 

1) Положение: концы отрезка, центр отрезка, центр тяжести области, вершины 
многоугольников. 

2) Геометрические атрибуты: ориентация. длипа, кривизна, площадь, периметр, 
ширина линии, мииимальный и максимальный диаметр области. оси симметрии, число 
и положение особых точек. показатель компактности. и др. 

3) Радиометрические атрибуты: контраст, статистика распределения яркости, знак 
и величина края, автокорреляция. 

4) Текстурные атрибуты: матрица смежности. показатель однородности, энергия, 
энтропия, статистика градиентов текстуры, результаты применения текстурных филь- 
тров, моменты. 

5) Топологические атрибуты: связиость, соседство, общие точки. пересечение, па- 
раллельность. перскрытие, включение. 

6) Цветовые/многозональные атрибуты: вектор атрибутов для каждого капала. 

7) Динамические атрибуты: атрибуты статических H движущихся объектов. 

8) Временные атрибуты: функции изменения атрибутов со временем. 

Выбор копкретиых ХЧ н их атрибутов для построения алгоритмов обнаружения 
должен основываться на следующих основных критериях. 

1) Присутствие /плотность: паличне данных ХЧ на всех используемых изобра- 
жениях, достаточная плотность ХЧ для покрытия интересующего района. 

2) Редкость /Уникальность: редкость конкретной ХЧ на изображении. уннкаль- 
ность ХЧ в окрестлостн. 

3) Инвариантность / Устойчивость: робастность по отношению к геометрическим 
и раднометрическим искажениям, нечувствительность к шуму. 

4) Локализация: возможность точной локализа дии. 

5) Интерпретация: возможность быстрого распознавания н иитерпретацин. 

6) Скорость: время выделения даипого класса XH из исходного изображения. 
При работе с реальными изображениями перечисленные критезни являются протн- 
воречивыми. Поэтому конкретный выбор ХЧ и их атрибутов зависит OT доступпой 
вычислительной мощности H OT минимальшюй требуемой робастиости описания MO- 
дели объекта в термниах ХЧ. В табл. 4.1.1 показано качество различных свойств 
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характерных черт. Данная таблица демонстрирует противоречивость разных типов 
ХЧ в смысле различных критериев. 


Таблица 4.1.1. Качество ХЧ 


Свойства ХЧ Качество 
лучше = хуже 


Присутствие/плотность | точ | линии | области 
Редкость/уиикальность | облет | линии | точки 
Ииварнантиость | точ [enn [ области 
Устойчивость к шум | облктн [линии [точки 


точки, особенно: 


Локализация области 


‘лы, цеитры 


концевые точки 
отрезков, открытые 
контуры, открытые 


соедииеиия, 
замкиутые контуры. 
замкиутые области 


Скорость [очи области 


Dua И 
Влияине разрывов точки anunn области 
Влияине зггораживания | области | линии | TO'IKH 


Если говорнть о методах и алгорнтмах обнаруження сложных объектов, то одна из 
центральных проблем. отличающих методы обработки изображений от хорошо изу- 
ченной теории обработки снгиалов, заключается в разработке методов обнаружения 
объектов, слабо чувствительных к разнообразным вндам изменчивости, характерным 
лишь для изображений. Такимн специфическими видами изменчивости являются på- 
курсные н раднометрические искажения, а также различные внды искажений, ие 
своднмые к вероятиостным моделям (шумы формы). Ha путн борьбы с ними были 
предложены как огромное множество эвристнческих алгоритмов обнаружеиня KOH- 
кретных типов объектов, так и ряд подходов, обладающих большей общностью: мето- 
ды корреляционного обнаружения [12], [51], [52], преобразование Хафа [146], [154], 
[188]. [197] морфологические подходы Пытьева [36], [37] и Серра [240], [241]. Зна- 
чительный вклад в разработку методов H алгоритмов обработки изображений H ма- 
шинного зрения применительно к обсуждаемым задачам обнаружения внесли работы 
Л. П. Ярославского, В.К. Злобина, B. Л. Лёвшина, P. Харалнка, Е. Дэвиса. P. Неватна. 
E. Дикманнса, B. Фёрстнера н многих других. Однако, несмотря на достигнутые pe- 
зультаты, общее состояние проблемы выделення H идентификации сложноструктурн- 
рованных объектов на моноскопнческих нзображеннях можно охарактеризовать как 
неудовлетворительное. Еще сложнее выглядит задача обнаружения трехмерных струк- 
тур на стереоскопических изображениях. Здесь только намечаются подходы к более 
общим постановкам. 

Рассмотрим теперь некоторые современные подходы к выделению основных типов 
ХЧ (точки, линии, области, структуры). Смысл этого рассмотрения в том, чтобы 
составить у читателя представление о направлениях развития методов анализа ХЧ. 


особые точки, 


Интерпретация цеитры тяжести 


4.1.2. Выделение и описание точечных особенностей. 
Выделение точечных особенностей (операторы нитереса). В литературе no ma- 
шинному зрению описаны многочисленные точечные операторы, предназначенные для 
выделения особых (характерных) точек на изображении [40], [51[. [146], [159]. To- 
чечные операторы могут выделять как отдельные точки (особые точки в двумерной 
окрестности), так H точки. принадлежащие краям (особые точки B одномерной окрест- 
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ности). Все точечные операторы основаны на вычислении некоторых атрибутов н опре- 
делении, превышают JIH значення этих атрибутов порог. Атрибуты для каждой точки 
обычно вычисляются в небольшой локальной окрестности — (3 х 3)-(11 х 11) пиксе- 
лов. Порог определяет число обнаруженных точек. Он может определяться адаптив- 
но (например, для порога граднента изображения можно использовать СКО яркости 
изображения) unu фиксироваться заранее. Альтернативным способом (без использо: 
вання порога) является сортировка значений атрибутов н выбор п лучших точек. Этн 
способы выбора характерных точек He гарантируют, что точки будут распределены 
по изображению равномерно. Возможна ситуация, когда все точки будут сосредото- 
чены в одной частн изображення. В алгоритмах обнаружения необходимых участков 
местности в задачах наведення необходимо, чтобы распределение характерных TO- 
чек по изображению было как можно более равномерным. В этом случае необходимо 
разделить изображение на блоки, перекрывающиеся по краям, н к каждому блоку, 
рассматриваемому как отдельное изображение, применнть точечный оператор. Во из- 
бежанне кластеризации точек применяется также выделенне локальных максимумов 
значений атрибутов в некоторой окрестностн. 


Детекторы углов. Рассмотрим способы нахождения углов на изображениях. 
Пусть вариация яркости изображения в зависимости от сдвига (u,v) оценивается B 
соответствии формулой 


E(u,v) = У ‘ит Их +u,y +v) – (х,у), 


zy 


где (x,y) — яркость в точке (2,3), ш(т.у) — функция окна (прямоугольного или 
rayccoBa). 
Для небольших cagurosB существует приближение 


E(uv) = [uv] М ; 
v 


где 


матрица, состоящая из взвешенных значений производной функции ннтенснвностн. 
Производные интенснвностн могут подсчитываться оператором Робертса илн любым 
другим дифференциальным оператором: 


С° = -1 0 Роб 0 -1 s 
0 1 10 


(здесь знаком * обозначена операция свертки изображения с маской). 

Собственные значения данной матрицы указывают на направлення изменення Ap- 
кости внутри окна. Если одно из собственных значений существенно больше другого, 
To это означает, что яркость сильно меняется B одном направлении H почти нензменна 
в другом (перпенднкулярном первому). В таком случае мы имеем дело с краем. Если 
оба собственных значення малы, то яркость мало меняется, и мы имеем «плоскую» 
равномерно яркую область. Нанболее ннтересна ситуация, когда оба собственных зна- 
чения велики H сравнимы друг с другом, что, как правило, означает наличие в центре 
окна угловой точкн. 


194 АНАЛИЗ ИЗОБРАЖЕНИЙ ГЛ. 4 


Исходя из этих предпосылок, Харрисом [279] была введена мера интенсивности 
угла 
В = іс M - k(tr My). 


где det M = À,A5, tr M = À; +А2; Ài, А — собственные значения матрицы М; К — 
эмпирически подбнраемый параметр со значениями порядка 0,04-0,06. При больших 
В > 0 получаем угол, прн отрицательной мере получаем край, при нулевой — ennoc- 
кую» область. 

Для нахождения углов детектором Харриса необходимо сначала в каждой TON- 
ке нзображення вычислить меру К, затем рассмотреть те точки, в которых мера 
снлы угла больше некоторого порога. Анализ собственных значений матрицы М поз- 
воляет сопоставить углу эллипс, направление полуосей которого будет совпадать с 
направлениями собственных векторов, а HX длниы будут обратно пропорциональны 
собственным значениям, 

Другой популярный детектор углов, сператор Фёрстнера, также основывается на 
анализе собственных значений матрицы М и вычисляется по формуле 


dec M 
R= uM 


Оба указанных детектора ннвариаитны к вращению. В самом деле, прн BpauleHHH 
изображения эллипсы поворачиваются, Ho HX форма (то есть собственные значения 
матрицы взвешенных производных изображення, посчитанных по окну) сохраняется. 


Рис. 4.1.2. Выделенне точек ннтереса: а — исходное изображение; 6 — поле модуля градиента: в — 
результат выделения точек оператором Фёрстнера (окно 15 x 15. 0,5 < R < 0.75} 


На puc. 4.1.2 представлены точки, найденные с помощью оператора Фёрстнера. 

Операторы нахождения углов не всегда обеспечивают необходимую плотность TO- 
чек на изображении, что приводит к кластеризации точек. Возможна ситуация, при 
которой все точки будут сосредоточены в одной частн изображения. Скопление точек 
происходит вблизи искусственных объектов, отсутствие которых приводит к значн- 
тельному сокращению числа выделенных точек. К такому же результату может приве- 
CTH отсутствие на изображеннн богатых текстур. Для избежания кластеризации точек 
может быть нспользован метод выделения локальных макснмумов значений атрибутов 
в некоторой окрестности точки. Возможно также разделить изображение на блоки, 
перекрывающиеся по краям, и к каждому блоку, рассматриваемому как отдельное 
изображение, применнть точечный оператор. 
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Модифицированный сигма - фильтр. Другим современным подходом 
является подход к поиску характерных точек изображения па основе локальных ири- 
знаков. Предполагается. что особые точки имеют выделяющиеся признакн. Для вы- 
деления особых значений признаков может использоваться следующая модификация 
сигма-фильтра. 

Обозначим через h(r.y) результат применения к исходному изображению /(х.у/) 
оператора // выделения признака: 


h(r,y) = Н + Дг.у). 


где " обозначает операцию применения оператора (свертка + дополнительные вычис- 
ления). 

Для каждого пиксела (г.у) рассматривается его окрестность R размером N х N, 
внутри которой вычислястся среднее т н СКО с значений признака №(г.у) 


l Б 1 , р 
т = =5 X hr, y. o = $ (=, у) - т?. 
R R 


Точка (r.y) считается особой, если h(r.y) не попадает в интервал. образованный 
значениями M H с: 
hir,y)« m-as или b(ry)»m «o, 


где х — параметр алгоритма, определяющий коридор значеннй признака. 
Пример выделения особых точек на тестовом изображении показан на рис. 4.1.3. 


Рис. 4.1.3. Выделение особых точек при помощи локальных признаков: а — тестовое изображение; 
6 — СКО яркости (№ = 5); в — характерные точки, полученные с помощью модифицированного 
сигма фильтра (N = 5. «= 1) 


Описание точечных особенностей. Для того чтобы сравиивать точки интереса 
па разных изображениях, необходнмо ввестн некие численные характеристики, Õe- 
скрипторы точек интереса. При этом очень желательно, чтобы эти дескрипторы не 
зависелн от сдвига, поворота M масштабирования изображения, а также от равномер- 
ных изменений яркости — то есть чтобы они были инвариантны. 

Сколько ннварнантов использовать — вопрос. достойный исследовакня. Чем боль- 
ше инварнантов насчитано, тем больше шансов, что объекту будет найдено уннкаль- 
ное соответствие. И наобсрот, два-три ннварнанта — чересчур общая характернстика 


196 АНАЛИЗ ИЗОБРАЖЕНИЙ ГЛ. 4 


для того, чтобы она представляла ценность. В то же время, вычисление большого 
числа параметров по каждой найденной области (точке, лннин) сопряжено с затрата- 
MH машинного времени. Существует большое количество разнообразных ннварнантов. 
Ниже приведены наиболее известные H применнмые. 


Инварнанты Xy. Инварнанты Ху [177] основаны на теории алгебранческих 
HHBapHaHTOB. Значення ниварнантов вычисляются из центральных моментов второго 
н третьего порядка. Для двумерной функцнин яркости изображения f(z,y) моменты 
(р + q)-ro порядка определяется следующим образом: 


mp = ] / РАР 


—00 —00 


где f(z,y) — значение функции интенсивностн в точке. 
Для дискретного изображения формула для моментов будет нметь BHA 


mp = $^ Py fizy), 
(z.y)eft 
где Q — образ в декартовой системе координат (=, у). 
Формула центральных моментов для дискретного случая 
bx = У (2-2Ply – 0) f(z.y). 
(zy)efi 
Семь инвариантов, нспользуемых B качестве атрибутов точек, выглядят следующии 
образом: 
Іо = u% + №02; 
I, = (роо — o2)? + 4021; 
I2 = (изо — 3112)? + (3u2i — uos Y; 
Із = (изо + p12)? + (Mai + Mos)"; 
I4 = (изо — 352) (150 + ри2)[(изо + 12)? — 3(u21 + роз)2]+ 
+ (Зиа — роз) (игл + роз)[3(изо + p2)? — (изн + uos)”; 
Is = (u20 — Moz) (изо + i2)? — (M21 + поз)? + 40.1 (изо + Biz) (ио: + ноз); 
Ів = (3u21 — роз) (изо + 2) (изо + p12)? — 3(u21 + роз)? + 
+ (312 — изо)(изи + роз)[3(изо + 12)? — (иол + роз)2]. 


На практнке используются только первые 4-5 инварнантов, так как вычисление 
последующих сопряжено с большим объемом вычислений н онн не так ннформативны. 
В изображениях всегда присутствует шум, H его вклад усиливается при выполнении 
математических операций, _особенно прн умножении н возведении в степень. Об этом 
необходимо помнить, имея , дело с HHBapHaHTaMH более высокого порядка. 

Инварнанты Флюссера. Флюссер [276] ввел инварнанты, основанные на 
комплексных моментах: 


2n 


со 
Eos f J p?*etlet»-99 fn 9) drd. 
оо 
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Флюссер также показал, что не все инварнанты Ху являются независимымн. Один- 
надцать инвариантов Флюссера представлены инже: 


фи =си=Л, 
42 = с21с12 = Ц, 
фз = Ве(слос1>) = I6, 
фа = Іт(сгос?,), 
45 = Ве(сзос?,) = Is, 
в = Іт(сзос?,) =h, 
фт = c2, 
фа = Re(caict2). 
Фо = Im(csict), 

Vio = Ве(сдосї,), 

Фи = № (слос12). 


Поскольку вычисление HHB3pHaHTOB проходит в полярных координатах, HMeeT смысл 
предварительно насчитать значення яркостн изображения в круговой окрестностн точ- 
KH, используя какой-либо метод интерполяцин. 

Численные характеристики, опнсывающне участки изображений, He должны Me- 
няться при изменении яркости, вращении изображения н изменении масштаба. Для 
уменьшения влняння контраста соответствующего фрагмента на двух изображениях 
вводится нормировка интенснвностн 


fizy)-M 
Ллот(т, y) = = 


где f(z,y) — значение иитенсивностн в точке; Мо — математическое ожидание HH- 
TeHCHBHOCTH внутри фрагмента, с — СКО ннитенсивностн изображения внутри фраг- 
мента. Использование нормированной интенсивности увеличивает количество верных 
сопоставлений, повышает качество распознавання на снимках, сделанных при разных 
условиях освещенностн. 

Какую бы сложную форму HH нмелн инварнанты, они все равно не в COCTORHHH 
B 100% случаев уникально охарактеризовать объект. Неоднозначностн, то есть слу- 
чан, когда разные объекты (точки, областн) на изображенин Характеризуются очень 
похожими параметрамн, могут быть связаны C несовершенством выбранных HHBapH- 
антов, с низким разрешеннем илн шумом на изображении. Неоднозначностн также 
возникают при наличии на изображении повторяющихся объектов. Одни из спосо- 
бов разрешения неоднозначных снтуаций связан с разработкой более качественных 
ниварнантов илн иных дескрипторов; это направление очень актуально среди HC- 
следователей, занимающихся машинным зрением. Параллельный подход состонт в 
нспользовании пространственных соотношений между объектамн. 


4.1.3. Выделение и описание контуров. 

Выделение контуров на бинарных изображениях. Это задача, двойственная 
выделенню связных областей. При этом считается, что контурная точка области — 
это любая точка, принадлежащая области, в окрестности которой имеются 
точки, не принадлежащие данной области. 
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Отслежнвающне алгоритмы. Отслеживающие алгоритмы основаны 
на том, что на изображении отыскнвается объект (первая встретившаяся точка объ- 
екта) н контур объекта отслежнвается и векторизуется. Достоннством данных ал- 
горитмов является HX простота, к недостаткам можно отнестн HX последовательную 
реализацию H некоторую сложность при понске н обработке внутренних контуров. 
Пример отслежнвающего алгоритма — «алгоритм обхода контура», или «алгоритм 
жука», — приведен на puc. 4.1.4. «Жук» начинает движение с белой области по na- 
правлению к Черной. Как только oH попадает на Черный элемент, он поворачивает 
‘налево н переходит к следующему элементу. Если этот элемент белый. то жук пово- 
рачивается направо, нначе — налево. Процедура повторяется до тех пор, пока жук не 
вернется в исходную точку. Координаты точек перехода с черного на белое н с белого 
на черное н описывают границу объекта. 


Рис. 4.1.4. Схема работы отслеживающего Рис. 4.1.5. Различные ситуации, встречаю- 
алгоритма «жука» щиеся в ходе скаинроваиия 


Сканкрующне алгоритмы. Сканирующие алгоритмы основаны на про- 
смотре (сканировании) всего изображения н выделении контурных точек без отсле- 
жнвания контура объекта. 

Рассмотрим алгоритм, основанный на разработанной схеме хранення полосы H306- 
раження в памяти ЭВМ H нахождении контурных точек в процессе движения полосы 
по всему изображению. Для обработки информации в полосе различают два случая: 
выявление ситуации в полосе нзображения н ее разрешение. В полосе одновремен- 
но хранятся две строки изображения (текущая н предыдущая). Анализируются T- 
координаты черных серий обенх строк в порядке ux возрастания (слева направо) и 
выявляются пять ситуаций, которые могут возинкнуть. 

Ситуация «начало» возникает в том случае, когда черная серия текущей строки 
полностью покрывается белой серней предыдущей строки (puc. 4.1.5a). 

Для ситуации «продолжение» характерно частичное перекрытие черных серий obe- 
HX строк (puc. 4.1.56). 

Еслн две соседние черные серии текущей строки покрываются черной серней 
предыдущей строки, возникает ситуация «ветвление» (puc. 4.1.56). 

Ситуация «слнянне» выявляется в том случае, когда Черная серня текущей строки 
касается двух соседних черных серий предыдущей строки (puc. 4.1.52). 

Ситуация «конец» возннкает, когда белая серня текущей строки полностью покрь:- 
вает черную серию предыдущей строки (puc. 4.1.50). 

Обрабатываемые строкн представлены в внде массивов структур, куда входнт ко- 
ордината T начала/конца черной серин н адрес буфера, предназначенного для сбора н 
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хранения информацин по одной ветке (части контура), которая пересекает обрабаты- 
ваемую строку. В буфере содержатся тип ветки (левая HAH правая в зависимости OT 
расположения черной серин связной компоненты), ее внутренний номер, параметры 
отслеженной части контура (длинна, площадь, габариты) н ee координатное описание, 
адрес буфера парной BeTKH, которая является частью того же контура, н некоторые 
другне парамстры. 

При выявлении ситуации «начало» из стека свободных буферов выбирают два (для 
левой н правой веток). Каждая пара веток нмеет свой уникальный номер, который 
возрастает по мере появления новых веток. 

При обнаружении ситуации «продолжение» в буферы, адреса которых выбираются 
нз описания верхней строки, допнсываются координаты новых точек и уточняют- 
ся геометрические параметры. Одновременно производится полигональная аппроксн- 
мация веток. В случае заполнения буфера метрическое описание соответствующего 
участка контура записывается в выходной файл, а в буфере сохраняется адрес запн- 
санного участка, что дает возможность связать ссылками участки одного контура. 

При выявлении ситуации ветвление» точки ветвления обрабатываются по анало- 
гни с ситуацией «начало». 

Ситуация «слиянне» возникает тогда, когда закончено отслеживание внутреннего 
контура н когда объединяются веткн одного контура. В первом случае происходит 
объединение ниформацин обенх веток н запись в выходную структуру. Во втором 
случае ветка с менышим номером «поглощает» ветку с большим номером н ее пару. 
Объединенная информация сохраняется в буфере ветки с меньшим номером, а в теку- 
щей строке адрес буфера парной ветки меняется на адрес буфера оставшейся веткн. 
В обоих случаях буферы «поглощенной» пары освобождаются. 

Ситуация «конец» свидетельствует о TOM, что либо закончилось отслеживание 
внешнего контура, либо сливаются ветки одного контура. Обработка производится по 
аналогин с обработкой ситуации «слияние». 

Прослеживание контуров на полутоновых изображениях. Методы выделения 
контуров уже были подробно рассмотрены в разделе 3.4. Результатом работы процедур 
выделения контуров является контурный препарат, представляющий собой множество 
не связанных друг с другом краевых точек. Для дальнейшей работы с контурамн необ- 
ходнмо из множества выделенных краевых точек сформировать кривые (ломаные). 

Задача прослеживання контуров (edge following) также является объектом отдель- 
ных исследований, поскольку является одной H3 ключевых в работе с контурамн. В 
настоящее время разработано достаточно много различных алгоритмов прослежнва- 
ния контуров, которые можно разделнть на несколько групп: 

€ методы, использующие информацию о значенни н направленин граднента в каж- 
дой точке; 

® методы, использующие динамическое программирование для решення задачи 
прослежнвання контура; 

€ методы понска оптимального пути в графе. Каждая краевая точка представляется 
вершиной графа. 

Рассмотрим, например. алгоритм прослежнвання контуров, относящийся к первой 
группе. Суть метода заключается в предположении о том, что точки, принадлежащие 
одному контуру, должны иметь близкие значения модуля н направления вектора гра- 
днента. Рассматриваетси окрестность точки (1,7) размером М x М (обычно исполь- 
зуют окрестность З x 3), н в каждой точке (k,l) окрестностн проверяются следующие 
условия: 


DIGi; — Gral < АС, 
2) |«i,, — «01 < Ах, 
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где (i,j) — центральная точка окрестности; С — модуль градиента; с — направление 


граднента в точке: AG — предельное значенне расхождения модулей градиента в 
точках (i,j) н (k,l); Ах — предельное значение расхождения направлений векторов 
градиента в точках (i, j) н (k,l). 

Если в точке (k,l) выполняются описанные выше условия, то считается, что пара 
точек принадлежит одному контуру. Для упрощения вычисления направлення края 
весь диапазон возможных значений 0,...,360° разбивается на 8 направлений (секто- 
ров). Каждое направленне отличается от соседнего на 45°. При этом поиск точек, 
принадлежащих одному контуру, следует проводить среди точек сосединх секторов, 
имеющих расхождения значений градиентов меньше заданного порога. Результатом 
выполнения процедуры прослеживания является дискретное представленне контуров, 
прн котором каждый контур определяется множеством точек, из которых он состоит. 

Полученный контурный препарат в дискретном представлении далее подвергается 
анализу на предмет выделення на нем точек ветвлення (точки соединения кривых). 
Наличие точек ветвления свидетельствует о сложной геометрической структуре объ- 
екта, существенно затрудняет формальное опнсание н сам процесс распознавания 
объектов. Выделение точек ветвления позволяет значительно упростить структуру 
объекта путем разбнения контура на множество кривых. 

Выделение линеаментов. Нанболее ннформативнымн участками изображения 
местности являются области, содержащие изображения искусственных объектов (зда- 
ний, дорог к т. д.). Важнейшей характеристнкой искусственных объектов является HX 
правильная геометрическая форма. Часто обосновано предполагается, что граннцы 
объектов на нзображенин являются прямыми лнниямн. 

Иллюстрацией современного подхода к выделению прямых линий может, напрн- 
мер, служить улучшенная модификация классического метода [135], в котором снача- 
ла определяются края путем CBepTKH с двумя простыми 2 x 2 маскамн, затем пнксе- 
лы группируются в так называемые областн поддержки линин (ОПЛ). Каждая ОПЛ 
включает пнкселы с одинаковой ориентацией градиента. Прямая линия на ОПЛ onpe- 
деляется путем пересечения двух плоскостей: первая из HHX аппроксимирует поверх- 
ность нитенсивностн, вторая, горизонтальная плоскость, представляет средневзвешен- 
ную интенсивность. 

Рассмотрим варнант этого метода, состоящий из следующих щагов. 

1) Вычисление градиента исходного изображения. 

Обозначни: f — исходное изображение; f7, fY — производные исходного нзобра- 
жения по координатам T H у соответственно; т — модуль градиента; а — направленне 
градиента. 

Производные изображения вычисляются с помощью оператора Собела [34]: 


-1 0 1 -l -2 -1 
f'-|-202|*f, Л= о о 0 «7. (4.1.1) 
0 1 1 2 1 


В (4.1.1) знаком * обозначена операция свертки нзображення с маской. 

Выбор такого оператора обусловлен простотой его реализацин, а также тем, что 
он обладает свойством подавлення шумов. 

Затем вычисляются модуль H направление градиента 


mij = YGF +G, aij = arctg $? i (4.1.2) 


1,j = 1,..., N. N — размер нзображення. 
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В зависимости от знаков f3, fb направление градиента aij преобразуется в дна- 
азон от 0 до 2л. На рис. 4.1.6 показаны результаты вычисления граднента исходного 
изображения. 


Рис. 4.1.6. Результаты зычислеиня градиента изображения: а — модуль градиеита. б — направление 
градиента 


2) Группировка пнкселов в ОПЛ путем деления пространства орнентации градн- 
ентов на сектора с углом ф. Из-за слабой чувствительности оператора Собела к ис- 
тинной ориентации граднента создаются два варианта разбнений: pÜ) и р!2), которые 
далее объединяются. Разбиение на сектора производится по формулам 


ды. ио асат 
1j E , д == D 
Ф Ф 


У 


здесь [...] — целая часть числа. 

Экспериментально найдено, что значение ф = 30° является достаточным для пред- 
ставлення ОПЛ, т. е. изображение р(!) содержит номера секторов 0,..., 11, а изобра- 
жение р(2) содержит номера секторов 12,...,23. На puc. 4.1.7а,б показаны результаты 
такого разбиения. 

3) Определение с помощью стандартного алгоритма восьмисвязной разметкн об- 
ластей [32], которые образуются в результате выполнения шага 2), а нменно, изоб- 
раження p°) (i = 1,2) разбиваются на N; областей, которые обозначим RÜ (k= 
=1,..., №). Каждая область RË является ОПЛ н определяет проходящую через нее 
линию, которую обозначим IC. 

4) Создание путем слияния изображений pi!) н pí? нового изображения р 


(рис. 4.1.76). Каждый пиксел (i,j) изображения р получает значение py или р? 
(1) 


в зависимости от Toro, какая нз ОПЛ — №; · или n? — содержит более длинную 
линию. Здесь k,l — номера областей на изображениях р(! н р!2), соответственно, 
содержащие пиксел {i,j}. Этот прием позволяет несколько уменьшить ошибки B окон- 
чательном представленни ОПЛ, связанные с неточной дискретнзацией направлений 
вычисленных граднентов. 

5) Разбненне изображения р на N областей, которые обозначим Ry (К = 1,...,М№), 
н определение всех таких областей с помощью стандартного алгоритма восьмисвязной 
разметки. 
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6) Определение с субпиксельной точностью проходящей через область ОПЛ Ry 
JIHHHH ly C помошью описанного ниже алгоритма. 


Рис. 4.1.7. Результаты формирования областей поддержки линий: а - изобргжение р('’: 6 — изоб- 
ражение p?) ; в — изображение p 


Вначале для каждого пиксела (г.у) из №, вычисляютси параметры плоскости, 
аппроксимнрующей поверхность интенсивности исходного изображения f. 
Плоскость представляется уравнением 


3 =аг+ у + с. (4.1.3) 


Реаль:ан форма поверхности HirTeHcHBHocTH W3oÓpaxeuus f в области А, обычно 
отличается от плоскости, поэтому удобнее пайти уравнение плоскостн как решение 
методом нанменьших кзадратов задачи мниимизации ошибки аппроксимации: 


Игги) = ar, tby +сте.. 


или, в матричной форме, 
1= бр + Е, 


z; oy 1. 
где С = |... .. .. | — матрица плана, состоящая из коордипат инкселов обла. 


їп Ya 1 
CTH Кк (n — число пикселов областни), 1 — вектор наблюдений длниой ni, состоящий нз 
значений яркости изображения f в областн Hy.c — вектор ошибки длнной п, опре: 
деляющий отличие проводимой плоскости от реальной функции яркости в области 
Ri. 

Целесообразно ввести также Н — весовую матрицу размером n х n, состоящую 
нз значений модуля градиента H, = in(z,. y;), Ну = 0, 1 £j. В результате пнкселы 
области Лу с большим значением модуля градиента нмеют больший «вес» при опреде. 
ленин коэффициеитоз уравнения плоскости. Решение снстемы пормальных уравиеннй 
методом панменьших квадратов имеет BHA 


p = |a b c] = (G'HG)-'G'HI. 


Как уже говорилось выше, прямая линня в области R; определяется как результат 
пересечения найденной плоскости, аппроксимнрующей поверхность яркости в области 
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Rk, н горизонтальной плоскости, представляющей среднюю яркость в областн Ry. 
При вычислении средней яркости «весом» является значение модуля граднента, чем 
достигается центрирование прямой линни внутри области. Горизонтальная плоскость 
представляется уравненнем 


У пт) 
E (z.y)€ Ry 


j P» 


(r.y)€ Rk 


=c. (4.1.4) 


Пересечение плоскостей (4.1.3), (4.1.4) определяет прямую lk с ypaBHeHHeM 
іт + еу + / = 0). 


где 
d=a, е=, | =с- с. 


Крайние точки отрезка вычисляются путем пересечения прямой линин н сторон MH- 
нимального прямоугольника, содержащего область Ry. 

На puc. 4.1.8 показаны кнформатнвные участки тестового изображения, сформи- 
рованные по результатам работы алгоритма выделения линий. 


Рис. 4.1.8. Информативиые участки изображения иа основе выделенных линеамеитов. Показаны 
линеаменты с длниой более L: а — І, = 6: 6 — Г, = 10; в – І = 15 


Пронзводнтся вычисление для каждого отрезка следующих атрибутов: 

e крайние точки; 

è длина; 

* нормализованные параметры уравнення линин; 

® угол между линней и осью абсцисс; 

ө средние яркости в полосе с одной н с другой стороны oT линин. 

На основе этих атрибутов далее формируются отношения между отрезкамн для более 
сложной семантической интерпретацин двумерного поля. 

Способы описания контуров. 

Контурные коды. Дискретное представление кривой в виде лоследователь- 
ности точек с координатами (r,y) крайне неэффективно. Более эффективным ABNA- 
ется представление с помощью цепных кодов (chain code) [32], [34], при кспользова- 
нии которых вектор, соединяющий две соседние точки, кодируется одини символом, 
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принадлежащим конечному множеству. Обычно при пользовании цепным кодом рас- 
сматривается окрестность точки размером 3 x З н 4 HAH 8 возможных направлений 
кодирования (puc. 4.1.9). 


Рис. 4.1.9. Направления коднрозания в цепных кодах: Рис. 4.1.10. Фрагмент контура 
а — 4 иаправлеиня: 6 — 8 иаправлений 


Начиная с первой точки, производится обход контура по часовой стрелке, при этом 
каждая последующая точка кодируется числом 1-8, в зависимости от своего рас- 
положения относительно центральной точки окрестности. Результатом кодирования 
является последовательность, состоящая из цифр 1-8. Пример кодирования кривой 
(рис. 4.1.10) при помощи цепного кода: 77121076667110076771 122334. 

Данный способ представления кривой имеет следующие недостаткн: 

€ зависимость от начальной точкн коднрования. 

ene обладает свойством инвариантности к врашению. 

e неустойчивость к зашумлению. Локальные изменения контура могут привести к 
различным результатам коднрования. 

Другим способом представления кривой является кусочно-полнномнальная ап- 
проксимация. Задача аппроксимации заключается в отысканни кривой, проходящей 
вблизи заданного множества точек контура. Кривая разбивается отдельными узламн 
на отрезки, при этом аппроксимирующая функция на каждом из них имеет вид 


f(z) = ag + aT + azr? +... + ana”, 


где An — коэффициенты полинома, подлежащие определению на каждом отрезке. 

Кусочно -линнейная аппроксимация. Нанболее простым н скорост- 
ным методом аппроксимации является кусочно-лннейная аппроксимация. В данном 
случае для каждой пары узлов необходимо определить всего лишь два коэффициен- 
та ао M а]. при этом общее число коэффициентов, подлежащих определению, равно 
2(n — 1), где n — общее число узлов. 

Например, для кусочно-линейной аппроксимации может быть использован нтера- 
тивный алгоритм подбора концевых точек. На первом этапе работы алгоритма конце- 
вые точки контура А и В соединяются прямой линией. Для всех оставшихся точек 
вычисляются расстояния до прямой АВ. Точка, имеющая нанбольшее отклонение от 
прямой АВ, берется в качестве дополнительного узла. При этом кривая заменяет- 
ся двумя отрезкамн АС и СВ (рис. 4.1.116). Процедура продолжается до тех пор, 
пока максимальное значение отклонения точек меньше заданного порога. Точность 
аппроксимации прямыми линиями определяется величнной порога. 

Основным недостатком кусочно-линейной аппроксимации является то, что аппрок- 
симирующая функция не является гладкой (первые производные терпят разрыв в 
узлах сетки), а также зависимость результатов аппроксимации от исходных экспе- 
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риментальных данных. Отсутствие гладкостн функцин не является существенным 
ограниченнем, в то время как зависимость результатов аппроксимации от начальных 


e 


Рис. 4.1.11. Итеративный подбор концевых точек: а — первый этап; б — второй этап; в — третий 
этап , ' 


условий (точек Ан B) часто He позволяет использовать данный метод аппроксимации 
для задач отождествления контуров. 


Аппроксимация сплайнами. На практике для аппроксимации нанболее 
часто используются кубическне сплайны [32]. Кубические сплайны дают высокую TOY- 
ность приближения H гладкость функции. Однако еслн аппроксимируемая функция 
имеет сильные перегибы, то в ряде случаев кубический сплайн дает выбросы. Сплайн 
первой степени в указанной ситуации выбросов не допускает, однако в данном случае 
трудно обеспечить необходимую точность аппроксимации. Особенно значительные 
трудности возникают в случае аппроксимации функций c большими значениямн KpH- 
визны. Применение здесь как кубических сплайнов, так H сплайнов первой степени 
связано с большим числом узлов ннтерполяцни. В то же время рациональные сплай- 
ны сочетают в себе свойства нанболее распространенных на практике сплайнов — 
первой степени н кубических. Рациональные сплайны по сравненню с кубическими 
позволяют полнее учитывать особенности нитерполнруемой функции. С помощью ра- 
циональных сплайнов можно приблизить функции с большнин значеннями кривизны, 
а также с точками излома. 

Рацкональным сплайном называется функция зл(т), которая на каждом отрезке 
[Zi i1] имеет вид 


43 (1. — t) 

en(z) = ai + b(1— t) + —À—— + #00 
le pi(1— t) l 4 git 
где t = 2521, hi = ть — ть, po, qi — заданные числа, —1 < py qi < оо 

Параметры p;.q; определяют свойства рациональных сплайнов: если pi, qu близки 
к нулю, то рациональный сплайн становится кубическим. Если же параметры pi, qi 
достаточно велики, TO оценкн погрешности сплайна сопоставимы со сплайнами первой 
степенн. В большинстве случаев принято полагать р; = qi. 

Функция кривизны. Одним H3 важнейших параметров, характеризующих 
контур, является его кривизна. Кривизна обладает свойствамн ннвариантностн к 
сдвигу, повороту и вычисляется по формуле 


AM fe el Д 
VG + ny 


где fz, fi — первые производные по = и y соответственно; fz, fy — вторые производ- 
ные по T н у; 


К(т,у) = 
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Для описания контуров часто нспользуют естественное представление кривой. 
При этом контур представляют в виде одномерной функцин какого-либо атрибута от 
длины дуги. Длниу дуги дискретного контура в точке P(j) = 'т;.у,) можно аппрок- 
симировать следующим образом: 


J-1 


lj 2 3 VG - zi + (n na. 


Естественное представление кривой подразумевает отсутствие на контурах точек со- 
единений н разветвлений, в противном случае контур не может быть представлен 
в виде одномерной функцин. Данное ограничение требует введення дополнительных 
процедур обработки и анализа полученного контурного препарата: 

е понск на контурах точек ветвления; 

е разделения сложных структур на составляющие. 

Одним из нанболее часто используемых представлений контура является функция 
кривизны К\{). Достоинством функции кривизны является инварнантность к сдвнгу 
н повороту, однако кривизна обладает следующими недостатками: 

® отсутствие ицварнантности к масштабу; 

• проблемы, возникающие при сравнении прямолинейных контуров. Прямолнней- 
ные контура не могут быть представлены в виде функции кривизны; 

e необходимость аппроксимации кривых для точного вычисления производных в 
точке. 


Кү) 
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Рис. 4.1.12. Функция кривизны 


Перегиб. Одним из недостатков использования функции кривизны является 
необходимость аппроксимации контура для более точного вычисления первых двух 
производных в точках. Устранить данный недостаток можно при помощи замены кри: 
визны на другой атрибут, обладающий схожимн достоинствами. Аналогом кривизны 
является величина перегиба (k-curvature) контура в точке, однако для получения 
величины перегиба не требуется аппроксимация кривой, а используется дискретное 
представление кривой в внде последовательностн пиксельных координат точек конту- 
ра. Для вычисления значення перегиба в точке Р/ необходимо: 
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1) выбрать две точки последовательности P[i — К] н P[i + К], равноудаленные от 
РЯ на К точек; 
2) определить наклон в левую К{Г} н правую K(R) сторону or точкн РП 


K(L) = arg (7): 


a 
3) вычислить разность между углами наклона K(L) н K(R) 
K' = K(L) - K(R), 


где К’ — величина перегиба в точке. 

Если контур He содержит точек ветвления (соединения), то его можно представить 
в виде одномерной функции перегиба K'(/) (рис. 4.1.13). 

Особые точкн контуров. В качестве характерных признаков можно нс- 
пользовать число и положения особых точек контура (точки максимального перегн- 
ба, локальные экстремумы функцин кривизны, 
концевые точки, точки ветвления). В первую оче- 
редь, на контуре стараются выделнть так называ- 
емые угловые (контрольные) точкн, то есть точ- 
ки, имеющие максимальную кривизну в опреде- 
ленной окрестности, т. к. концевые точки н точ- 
KH ветвления являются недостаточно надежными 
признакамн H в значительной степенн подверже- 
ны влияниям шумов. Переход обратно к точечным 
характеристикам позволяет нспользовать методы 
отождествления, описанные в предыдущей главе. рис. 4.1.13. Вычисление перегиба в 
Существенным отличнем метода выделения харак- точке (к = 6) 
терных точек на контурах является то, что в ка- 
честве опорной информации используются не яр- 
костные, а геометрические особенностн объекта. 

В данной работе были рассмотрены различные варигиты выделения особых точек 
на полученных контурах. Наиболее простым н быстрым способом является описан- 
ный выше понск точек максимального перегиба прн помощн итеративного алгоритма 
подбора концевых точек. Однако нспользование данного алгорнтма не принесло поло- 
жительных результатов. Неустойчивость его работы определяется достаточно сильной 
зависимостью результатов понска точек от начальных условнй (концевых точек KOH- 
тура). Недостаточная помехозащищенность не позволяет нспользовать данный метод 
для выделення особых точек на контурах. 

Другнм, более надежным способом выделения особых точек является понск экс- 
тремальных значений какого-либо атрибута контура. В данной работе использовались 
локальные экстремумы функцин кривизны, для поиска которых необходимо: 

7 • Выполинть кусочно-полиномнальную аппроксимацию контура; 

® Постронть функцию кривизны; 

e Найти все локальные экстремумы кривизны. 

Кусочно-полнномнальная аппрокснмация кривой позволяет более точно вычислить 
значения первых двух пронзводных по направлениям в точках, а следовательно, н 
значение самой кривизны. 

Описанный алгоритм выделения особых точек контура обладает ниварнантностью 
к сдвигу и повороту, а также устойчивостью к шумам, 


рр) | Piek) 


АНАЛИЗ ИЗОБРАЖЕНИЙ ГЛ. 4 


208 


Рис. 4.1.14. Функция перегиба 


Рис. 4.1.15. Локальные экстремумы функции кривизны 


В основе многих сложных процедур 


1.4. Выделение n описание областей. 


анализа изображения лежит выделение связных областей или связных контуров, вы: 
с одной стороны, тип объекта, все еще очень близко связанный с растровым изобра- 


полняемое на первом этапе анализа изображения. Связная область изображения это, 
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жением (связная область может быть представлена не только векторным списком, но 
н соответствующей бинарной растровой «маской»), н в то же время — это уже некая 
самостоятельная семантическая единица, позволяющая вести дальнейший геометрн- 
ческий, логический, топологический н любой другой анализ изображения. 

В даниом разделе будут рассмотрены методы выделения связных областей на би- 
нарных н полутоновых изображениях, а также системы яркостно-геометрических прн: 
знаков, используемых для описания областей изображення. 

Выделение связиых областей на бниарных изображеинях. 

Соседство н связность на цифровых изображениях. Поня: 
THA «соседства» н «связности» тесно связаны с естественной топологией н геометрией 
дискретного цифрового изображення. 

Как мы уже отмечали ранее, каждый пиксел изображения c координатами (т, у) 
имеет восемь соседей, то есть примыкаюших к нему (граничащих с ним) ближайших 
пикселов, составляющих прямоугольную окрестность 3 x 3 (см. табл. 4.1.2). 


Таблица 4.1.2. Прямоугольная окрестность 3 x 3 


Прн этом четыре пиксела (соседи по горизонтали и вертикали) являются более 
близкими соседями и находятся от центрального пиксела окрестности на расстоянии 
1. Еще четыре пиксела (соседи по диагонали) являются менее близкими соседями н 
находятся от центрального пиксела окрестности на расстоянии У. Соответственно, в 
обработке изображений рассматриваются два вида соседства H два соответствующих 
им вида связности: 

1) соседство «по кресту» и 4-связность; 

2) соседство «по квадрату» н 8-связность. 

Чаще используется отношение 8-связности, NPH котором считается, что на прямо- 
угольной решетке каждая точка нзображения имеет восемь соседей. 

Связной областью изображения считается такая его область (множество точек), 
в которой: 

1) все точки областн имеют одинаковое значение (яркостн илн любого другого 
рассматриваемого признака); 

2) между любымн двумя точками, принадлежащими данной области, существует 
непрерывный путь, состоящий из точек, также принадлежащих данной областн н 
ЯВЛЯЮЩиИхСЯ NPH Этом «соседями» в смысле заданного отношения соседства (8- HAH 
4-связностн). 

В случае анализа бинарного изображения первое условне означает, что рассмат- 
риваются отдельные связные области, из которых состоит «объект» илн «фон». Ниже 
мы также будем рассматривать задачу сегментации полутоновых нзображений, в ре- 
зультате которой изображение разбивается на несколько непересекающихся связных 
областей. В этом случае связность областей понимается в чисто геометрическом (то- 
пологическом), à не яркостном смысле. 

Рассмотрнм теперь два наиболее популярных алгоритма выделения связных обла- 
стей на бинарных изображеннях. 

Метод «лесного пожара». Идея метода «выжигания области» HAM «мето- 
да лесного пожара» заключается в TOM, что область «поджигается» в одной точке, 
после чего каждая «подожженная» точка, в свою очередь, «поджигаеть всех своих 
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соседей, ниеющих ту же яркость. Уже «сгоревшне» точки вторично He «поджнгают- 
ся». Таким образом, согласно определению связной области, в конце концов все точки 
связной области окажутся вовлеченными в этот процесс. Рассмотрим программно- 
алгоритинческую реализацию этой ндеи. 

Пусть дано изображение Іт размера DimX x DimY и меточное изображение LAB 
такого же размера. Массив переменного размера RegionList содержит списки (масси- 
вы) точек, принадлежащих областям. Переменная RegionListSize содержит текущий 
размер массива ReglonList. Используется стек точек PSTACK (на стек кладутся коор- 
динаты каждой новой «подож женной» точки с тем, чтобы в будущем, будучи снятой со 
стека, она «подожгла», то есть положила на стек координаты всех своих подходящих 
соседей). 

Стековый алгоритм прослеживання связных областей: 

Обнулить массив LÀB; 

RegionLiatSize:20; 

for Je0 to DIMY-1 do 

for I-0 to DIMX-1 do 

if (LAB[I,J]e0) then 
begin 

Увеличить RegionLiatSize: 

LAB(I,J!:*RegionLlistSize; 

РОТМТ: = (1,4); 

CURRENT : »Im(I,J]; 

Добавить точку (RegionLiat(RegionLiatSize], POINT); 
Поместить_в_стек(РЗТАСК, POINT); 
while (PSTACK не пуст) do 
begin 
РСІМТ:=Достать нз стека (РЅТАСК); 
for К:=РОІМТ.Х-1 to POINT.X*1 do 
for L:-POINT.Y-1 to РОІМТ.Ү+1 
do 
if 
(IM(K,L]-CURRENT)and(LAB|K,L]-»0) then 
begin 
АВ (К, L]:eRegionLiatSize; 
POINT: =(К,1,); 
Добавить_точку 
(RegionLiat[RegionLiatSize], POINT); 
Поместить в стек (РЅТАСК, POINT); 
епа; 
end; 
end; 

После завершения процедуры «выжигания» список ReglonList содержит поточеч- 
ное описание всех связных областей изображения lm, а на меточном изображении 
LAB каждая точка изображения промечена номером соответствующей области в спис: 
ке RegionList. 

Двухпроходный алгоритм выделения связных областей. 
Данный алгоритм также предназначен для выделения 4-связанных или 8-связанных 
областей. Идея его заключается в тои. что единицей просмотра кзображення является 
уже не отдельный пиксел, а связный отрезок строки (сегмент). При этом на первом 
проходе по изображению вновь обнаруженный связный сегмент помечается либо но- 
вой оригинальной меткой — если он ни одним пикселом не касается какого-либо уже 
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помеченного сегмента в предыдущей no ходу анализа строке, либо меткой той об- 
ласти, которой принадлежит граничаший с ним отрезок предыдущей строкн. Такой 
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Рис. 4.1.16. Маски обнаружения областей: слева — в случае 4-саязности, в центре — в случае 
8-связности. справа — случай «столкновения» номеров 


алгоритм построчного просмотра изображения обеспечивает существенно более вы. 
сокое быстродействие по сравнению с описанным выше «стековым» алгоритмом, 
однако в процессе пометки сегментов могут возникать так называемые коллизии 
нлн «столкновения» меток. Это происходит в том случае, если отрезок гранн- 
чит одновременно C несколькими сегментамн предыдущей строки, причем эти Cer- 
менты принадлежат разным областям (случай У-образных u У-образных фигур). 


а 6 
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Рис. 4.1.17. Нахождение объектов в случае 8-связности: а. 6, в — шаги алгоритма. Таблица эканаа: 
лентиости после шага 6: 2-5, 5-5. 2-4 


Для устранения таких коллизий используется второй проход по изображению. На 
втором проходе повторно размечаются те области, для которых на первом проходе 
были обнаружены коллизии и занесены в специальную таблицу эквивалентности 
пары индексов областей, подлежащих объединению. 

Рассмотрим алгоритмическую реализацию этого метода более подробно. 

Первый проход. Просматриваем содержимое изображения / столбец за 
столбцом H присванваем целую ненулевую метку v каждому ненулевому пикселу 
(1,37. Значенне метки v выбирается в соответствии со значениями меток соседних 
пикселов (соседи вне изображення { не рассматриваются). 
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1) Если все соседи — пикселы фона (со значеннем равным нулю), то f(i,j) npu- 
сванвается новая, ранее не нспользовавшаяся метка. 

2) Если имеется в точностн один соседний пиксел с ненулевой меткой, присванваем 
эту метку пикселу f (i, j). 

3) Если имеется больше чем одни ненулевой пиксел средн соседей, присванваем 
метку любого из уже пронумерованных пикселов. Если метки соседей различаются 
(«столкновение» номеров), сохраняем такие пары номеров, как эквивалентные меткн 
в отдельной структуре данных (таблице эквнвалентностн). 


Второй проход. Все пикселы области пронумерованы метками областей B 
результате первого прохода, но некоторые области содержат пнкселы с различными 
метками (в результате «столкновения» номеров). Чтобы избавиться от «столкнове- 
ний», просматриваем все изображение снова н перенумеровываем пикселы, используя 
информацию нз таблицы эквивалентностн. 


Рис. 4.1.18. Исходное бинарное Рис. 4.1.19. Размеченные связные 
изображение области Ha бинариом изображении 


Данный алгоритм едннообразно реализуется н в случае четырех-, н в случае вось- 
мисвязности. Различня заключаются только в способе формирования маски опроса 
соседей (puc. 4.1.16). 

Поскольку оба описанных метода опнраются Hà одно H TO же определение связной 
области, результаты HX работы будут, естественно, одинаковы. Пример разметки связ: 
ных областей на бинарном изображенин показан на рис. 4.1.18, 4.1.19. На меточном 
нзображенни все пикселы каждый связной области исходного изображения помечены 
одним H тем же значением — уникальным индексом (номером) данной областн. 

Сегментация полутоновых изображений. Целью сегментации изображения в 
«широком смысле» является разбиение нзображення на семантические областн, кото: 
рые имеют строгую корреляцию с объектами или областями наблюдаемой трехмерной 
сцены. В более узком смысле под сегментацией полутонового изображения понимают 
задачу разбиения плоскостн кадра на ряд связных непересекающихся областей, KaK- 
дая из которых обладает некоторой внутренней однородностью того или нного вида 
(например, однородной яркостью пикселов). 

Дадим формальное определение. 

Пусть вся область кадра обозначается как А. Тогда сегментацией изображения 
называется процесс разбиения Л на такую совокупность связных областей (R,), i = 
= ],....n, что для них выполняются следующие основные условня: 
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(a) R- Uizi,....n Ris 
(в) Pred(R;) = TRUE, i =1,...,n, 
(г) Pred(R; U R;) -FALSE, уі 57 (4.1.5) 


где Pred(R) — булевский предикат однородности областн в некотором заданном 
смысле. 

Первое условне данного выражения утверждает, что области разбнення целиком 
покрывают кадр изображения. Второе условне описывает тот факт, что области разбн- 
ення попарно не пересекаются. Третье условие требует, чтобы каждая область разбн- 
ения была однородной областью изображения в заданном смысле (например, в смысле 
максимально допустимой разницы значений яркости составляющих ее пикселов). На- 
конец, четвертое условне требует, чтобы попарное объединение любых двух областей 
данного разбиения не удовлетворяло тому же условию однородности. В самом деле, 
если объединение областей также является однородной областью, то эти две областн 
на самом деле являются единой областью, что н следует отразить в разбкенин. 

Рассмотрим теперь основные методы сегментации изображений, нспользуемые в 
современном машинном зренин. 

Пороговая и мультнпороговая сегментация. Пороговая сегмен- 
тация изображения по уровням яркости — простейший вид сегментации нзображення. 
Этот метод основан на том, что многие объекты илн области изображения характерн- 
зуются постоянной отражательной способностью или поглощением света на HX поверх- 
ности. Отличительной чертой пороговой сегментации является вычислительная эф- 
фективность H возможность использования в системах реального масштаба времени. 

Пороговая сегментация выполняется следующим образом: 


glij) =1, для КЬ] < Т, 
9(4,3) = 0, DAA (67) « T, 


где 9(1,7) — элемент результирующего бинарного изображения, f(i,j) — элемент 
исходного нзображення. 

Успех пороговой сегментации зависит от способа выбора порога. В главе 3.1 мы 
рассматривали методы адаптивного выбора порога как функции глобальной илн ло- 
кальной гистограммы нзображення. 

Существуют следующие основные виды пороговой сегментации. 

Диапазонная пороговая сегментация. Сегмент изображения считается «областью», 
если его уровни яркости находятся в заданном днапазоне D, или «фоном» в противном 
случае: 

9(i.J) = 1, для (2.3) єр, 

g(i, j) = 0, в противном случае. 

Мультипороговая сегментация. Используется в том случае, если исходное изоб- 
ражение обладает не бимодальной, а мультимодальной гистограммой. В этом случае 
результирующее изображение не является бинарным: 

9(4.J) = 1, для f(4J)€ Р, 

glij) = 2, для f(4,j) € Г», 

glij) = 3, для fii) € D3, 

glij) = п, для f(i,j) € Dn, 

9(1,7) = 0, в противном случае. 
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Адаптивная мультнпороговая сегментация также рассматривалась ранее в Главе 
3.1. На рис. 4.1.20-4.1.23 приводятся примеры такой сегментацин. 


Рис 4.1.20. Ис» № избра же Рис. 4.1.31. Ллаптивная музьтн 
RT lOpOF ORA" CC MOEHTRUMS и Юра жх 


из ист амме (три знапак 


Рис. 4.1.22. Исходное изображс- Рис. 4.1.23. Алаптиапая мульти: 

пие пороговая сегментация изображе- 
ния по гистограмме (пять днапа- 
зопов яркости) 


Методы слияния, разбнення н слняння / разбнения обла- 
стей. 

Слияние областей. Определение (4.1.5) фактически определяет некий HTepaTHB- 
ный алгоритм слияния областей, который начинается с минимальных областей раз- 
мером в один гиксел, которые затем в повторяющихся циклах опроса изображения 
«сливаются» (объединяются) с соседними областямн, еслн для объединенной области 
выполняется условне Pred(R,) = TRUE. Условием останова такого алгоритма слияния 
служит выполнение всех четырех условий выражения. Это означает, что достигнут Ta- 
кой шаг процесса, на котором больше нельзя найти ин одной парь. областей, которые 
можно было бы подвергнуть слиянию. 
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Описанный выше метод приводит к качественным результатам сегментации. OC- 
новным его недостатком является то, что такая сегментация, начинающаяся с уровня 
отдельных пикселов, как правило, требует для своего осуществления значительного 
количества времени. Причем большая часть временн тратится именно на начальных 
этапах работы алгоритма, когда размеры объединяемых областей малы, а колнчество 
вариантов объединення — велико. В связи с этим соблазнительной является идея 
начать нтеративный процесс анализа списка областей с некоторого обоснованного на- 
чального приближения, которое сразу давало бы существенно меньшее количество 
кандидатов. В качестве такого начального приближения могут выбираться, например, 
результаты выделения контуров оператором Марра (контуры оператора Марра все- 
гда замкнуты, следовательно. как раз задают разбиение кадра на непересекающнеся 
области). Однако такая предварительная сегментация (пресегментация) не гарантн- 
рует, что для всех предварительно выделенных областей будут выполняться условия 
Pred(R;) = TRUE (ведь выделение предварительных областей пронсходило не на ба- 
зе Pred(R;), a по другим критериям). В этом случае неудовлетворительные областни 
вновь приходится подвергать разбиению. Таким образом, мы приходим к следующему 
алгоритму сегментации. 

Алгоритм 1. Слияние областей (общая структура). 

1) Осуществить пресегментацию нзображення на «стартовые» областн каким-лнбо 
нентеративным (однократным) методом. 

2) Определить критерий слияния двух соседиих областей. 

3) Итеративно находить н объединять все пары соседних областей, удовлетворяю- 
щие критерию слняння. 

4)Если на очередном шаге ин одной пары кандидатов на объединение не найде- 
HO — остановиться и выйти H3 алгоритма. 

Различные методы слияния отличаются способом начальной сегментации изображе- 
ния M критериями слияния. Итоговый результат слияния областей, как правнло, Cy- 
щественно зависит от порядка опроса изображення. 


Разбиение областей — метод сегментации, протнвоположный слиянию. Разбиение 
начинают с представления всего изображения как простой областн, которая не BCC- 
гда соответствует условию однородности. В процессе сегментации текущие областн 
изображения последовательно расщепляются в соответствии с заданнымн условиями 
однородности. Методы слияния H разбиения областей далеко не всегда приводят к 
одинм H тем же результатам сегментации, даже если в них используется один и TOT 
критерий однородностн, 

Слияние/разбиение областей. В большинстве случаев нспользуется комбинация 
методов слияния и разделения. При этом Часто используют пирамидальное представ- 
ленне изображения H областн-квадранты. При этом элементы квадродерева областей 
соответствуют уровням пирамиды изображений. Процессы слияния и разбиения ob- 
ластей ндут поочередно на каждой нтерации. Если какая-либо область на каком-либо 
пирамидальном уровне неоднородна, она разделяется на четыре подобластн. Hanpo- 
тив, если на каком-либо уровне пирамиды наблюдаются четыре соседние области с 
приблизительно одинаковой величиной однородности, они сливаются в простую об- 
ласть на более высоком уровне пирамиды. 

Процесс такой сегментацин может быть понят как конструирование сегментнро- 
ванного дерева квадрантов, где каждый лист узла представляет собой однородную 
область. Разделение и слиянне соответствует удалению или построению частей cer- 
ментируемого дерева квадрантов. Методы слняння/разбкення, как правило, хранят 
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информацию о соседних областях в внде соседствующих графов (илн других подоб- 
ных структур данных). 

Опнсанное дерево сегментаиин легко реализуемо программно. 

Алгоритм 2. Слиянне/разбнение (puc. 4.1.24). 

1) Провести начальную сегментацию областей, определить критерий однородностн 
и пирамиду структуры данных. 

2) Если какая-либо область R в пирамиде структуры данных неоднородна 
(Pred(R) = FALSE). разделяем ee на четыре дочерние области. Если любые четыре 


MP ma I 
7 


Рис. 4.1.24. Разделение и слияние а нерархической структуре данных 


областн, нмеющне одинаковых родителей, могут быть слиты в простую однородную 
область. слкянке областей осуществляется. Еслн нет больше областей, которые могли 
бы быть разделены илн слиты на данном шаге, переходим к шагу (3). 

3) Если имеются какие-либо две соседние области Ri, №, (даже если онн npu- 
надлежат различным уровням пнрамнды или не имеют одних H тех же родителей), 
которые могут быть слнты в однородную область, объединяем их. 

4) Производим слияние малых областей с самой большой подобной соседней обла- 
стью, если необходимо, устраняем области с размерами меньше заданных, 

Ha рис. 4.1.25 показана схема сегментации изображения при помощи дерева квад- 
рантов. 


310 311 312 313 


Рис. 4.1.25. Сегментация с помощью дерева квадрантоа 
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На рис. 4.1.26-4.1.27 приводятся примеры сегментации изображений методом сли: 
яния н методом слияния/разбнения. Как видно H3 приведенных примеров, результаты 
сегментации различными методами He всегда совпадают. 


Рис. 4126 Примеры сегментации o исходное изображение. * еуультат сегментации изобра 


тения METODON слияния 4 { І 81 ме JUNH M3 бра жения Mb дом слияния/ разбиения 


Рис. 4.1.27. Прнмерь сегментации: а — нсходное нзображение: 6 — результат сегментации изобра: 
ження методом слнягня; в — результат cerveHTaLHH нзображення методом слняпня/разбнення 


Способы описания выделенных областей. 

Топологические признаки: 

®чнсло несвязных компонент (число отдельных объектов в составе образа); 

®число дыр (есть ли дыры внутри объекта); 

®число Эйлера (число объектов минус число дыр). 

Геометрические признаки: 

В задачах распознавания образов для классификации н селекции выделенных 
областей часто используются интегральные геометрические признаки. Обычно эти 
признаки задаются эвристически н характеризуют форму образа. К ним относятся 
следующие основные эвристики: 

® площадь образа: 

е положение центра тяжести образа; 
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® положение центра тяжести образа, рассматриваемого как бинарный; 


® периметр образа; 


® отношение квадрата периметра к площадн образа; 


e формат, 
® компактность; 


e пернметр н площадь описанного прямоугольника минимальной площади; 
е отношение площадн описанного прямоугольника к площади образа; 
®отношенне квадрата периметра описанного прямоугольника к его площади; 


e формат описанного прямоугольника; 
® относнтельные длина и ширина образа. 


Площадь 5 считается как число ненулевых элементов образа. 
Координаты центра тяжести образа рассчитываются через статнческие моменты: 


J Вцт, у) хг 
а 


Te = ff 8e nasa 
n 


что для бинарной матрицы имеет вид 
Lr 
Те = x 
а для полутонового изображения 
УС =В(з,у) 
R 


nU EBen 


ICT TT 
Q 


w= Г] В(г у атау’ 
N 


У 
Ус = 5’ 


УуВ(=,у) 
я 


dam У В(х,у) ` 
a 


Периметр образа равен сумме модулей элементарных векторов контура, соединяющих 


два соседних элемента (по 8-связности), 


№1 


N 


Pj-YIPIev2 У РИ, 


kzl 


К=М№1+1 


где P u P, — элементарные векторы, орнентированные соответственно по сетке H под 


углом 45°. 


Для вычисления значения признака F (формата) по контурным точкам образа 


стронтся матрица рассеяния 


Е = 520 
Su 


где 


$n 
So ] 


S= J, (r-z'y - v» 


(z.y)€Tu 


H находятся собственные числа этой матрицы: 


$20 + S 
LES 


ks 502 ae 
(eee +52. 


4 
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Очевидно, что Луз — действительные положительные числа (А может обращаться в 
0, если образ представляет собой прямую линию). 
Формат рассчитывается по формуле (для Л, 2 А) 


Компактность рассчитывается по формуле 


5 
Z= 
5. — S 


где S — площадь образа, S, — площадь описанного прямоугольника, орнентнрован- 
ного как эквивалентный эллипс. 
Для определения ориентации находятся собственные векторы матрицы рассеяния: 


520 — № Su T 
Su 502 – № у 


= 0. 


Чтобы найти величнны сторон описанного прямоугольника. орнентнрованного по соб- 
ственным векторам, достаточно определить проекиин образа на эти векторы. Величн- 
на проекции контурной точки образа (т,у) на один из собственных векторов (напри- 
мер, (21,31), соответствующий собственному числу А) определяется no формуле 


R= Vr? + у? sin (ав? - хеви) s 
г 21 


Подставляя значения собственных векторов, получаем 


Ri = (y- A981) [ 


№ — 802 ) 1 
R -( pcs 
? d $t vVr$ty, 


Периметр и площадь минимального описанного прямоугольника рассчитываются 
по следующими формулам: 
Ра = 2. (Ty + 7); 


S, = Ti t T», 


где Ту и T; — стороны описанного прямоугольника. 
Отношение площади описанного прямоугольника к площади образа рассчиты- 


вается по формуле 
: $, 
РА = =, 
S 
Отношение квадрата периметра описанного прямоугольннка к его площадн рассчиты- 


вается По формуле 
P; 


2а = >. 
27x 
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Формат описанного прямоугольника 


T 
Р = –. 
T) 
Относительные длина и ширина 
P, = a, P; = 2 
T2 Ti 


Моменты. Другой группой признаков являются моменты: 


mag - | B(x,y)z*yP dz dy, 
n 


где f) — образ в декартовой снстеме координат (r,y); В(т,у) — значение функции 
HHTeHCHBHOCTH в точке (х, у). 
Для дискретного изображения нмеем 


Yo sy By). 


(z,y)er 


Специальными пркемамн удается получить величины, инвариантные к смещению, 
изменению размера н повороту изображения: 
• моменты, инвариантные к смещению, 


Ux = УУ (т- те)Р(у – ye) B(z.y), 
(z.y)ef? 


где Te, ус — координаты центра тяжести образа; 
® моменты, инвариантные к изменению масштаба, 


= Upa 


Пра = =. 
ё D dul 
itj2ptq 


Действительно, при изменении масштаба в К раз значение всех центральных моментов 
изменится в КР+4+2 раз. Ho так как все моменты имеют р + 4 = const, то величина 
Пра Не изменится; 
e моменты, инвариантные к повороту, 
М, = пог + 20; 
2 7 
М, = а + 42, з 
2 2 
Мз = а + a2; 
М; = а? + a2; 
М; = азаз(а? — За?) + a4as(3a$ — a2; 
Ms = ai (a3 — aĝ) — Ani azas; 
2 
M; = аҳаз(а& — 3a) + a2as(a2 — a2), 
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где 


ai = 120 - 02; 

аз = ao - 3niz; 

аз = зо + 112; 

a4 = Зо — Поз; 

as = 121 - оз. 
Используются также н другне системы инварнантных признаков. 

Текстурные признаки. Сложно дать формальное определение таких no- 

нятнй, как текстура, типы текстур, сходство текстур и т. A., которым человек обу- 
чается, в основном, по визуальным примерам. Человеческое зрение решает про- 


блему соответствия текстур совершенно легко на подсознательном уровне, нс- 
пользуя пренмущественно «образное» полушарне головного мозга, или HHTyHTHBHO. 


Рис. 4.1.28. Примеры нзображений с несколькими текстурнымн областямн 


В качестве характеристик текстуры используются статистические, структур- 
ные и спектральные характеристикн. 

Статистические характеристики пространственных распределений вычисляются 
как меры однородности изображения no одномерной гистограмме значений снгна- 
лов (характеристики 1-го порядка — среднее значение, дисперсия сигналов, второй 
момент) н по двумерным гистограммам значений сигналов (характеристики 2-го no- 
рядка — средняя мера однородности, корреляционная мера однородностн, дисперснон- 
ная мера однородности, энтропня распределения значений, максимальная вероятность, 
контраст, обратный момент разностн). 

Характеристики, вычисляемые по гистограмме яркости изображения (обла- 
сти), опираются на иентральные моменты порядка т: 


Un = У – т)" НЫЙ, 
Li 
где m — средняя яркость изображения: 
т = у: ‚Ніз. 


Для описання текстуры часто нспользуют второй момент, или дисперсию: с? = y. 
Величина дисперсин характеризует «негладкость» изображения областни. Дескриптор 


I 
=1- - 
E 1+ 02 
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равен нулю для областей постоянной яркости н приближается к | для «негладких» 
областей. 

Момент из характеризует асимметрию гнстограммы (преобладание областей од- 
ной яркости над другой). Момент ju харатеризует T. H. эксцесс, илн «остроту» pac- 
пределения яркостн. 

По яркостной гистограмме также часто вычисляют однородность 


U = УН» 
$ 
н среднюю энтропию 
= - V Hist[i] - log, (Hist [i]. 


B текстурном анализе также часто используются двумерные гистограммы (мат- 
рицы смежности). 

Рассмотрим сначала бинарную матрицу смежности типа (1-1). Эта матрица раз- 
мера WinX x WinY вычисляется для бинарных изображений, пикселы которых при- 
нимают значения на множестве {0,1}. Элемент матрицы H[k,!] содержит число nap 
цикселов изображения А, удовлетворяющих условню А|т,у] = Alz + К, y + 1] — 1. 

Можно также nocTpouTb матрицу попарной совместной встречаемости цветов 
(значений яркости) для заданного значения смещения (k,l). При этом каждый эле- 
мент матрицы вычисляется как 


P[I. T) = coulittr=1,...,WinX y=1... WinY(A[r, y) =h, А[= + К.у + l) = I), 


то есть для любых двух значений интенсивности Tı, [2 Е {0,...,255}, ячейка матрицы 
совместной встречаемостн Р|П, [2] содержит подсчитанное колнчество раз, когда на 
изображении выполняется условие (A[z, y] = Ii, A[r + Ку +Й = 12). 

Яркостная матрица смежности стронтся далее как 


РИ, Г. 
Clh, h) = 29, 


гле n — число всех возможных пар элементов изображения, разнесенных Hà вектор 
(kd). 

После такой HopMHpoBKH элементы матрицы приобретают смысл оценки вероятно- 
CTH попарной совместной встречаемости соответствующих значений HHTeHCHBHOCTH B 
заданном относительном положенин. 

По матрице смежности строятся следующие полезные дескрипторы текстуры: 

e MakcHMyM вероятности 

maxC[ij], 


e Момент порядка К разностн элементов 
Y - j*-cli3. 
i jJ 
e Обратный момент разностн порядка k 


Y ctia а, 
i j 


4.1 ВЫДЕЛЕНИЕ И ОПИСАНИЕ ХАРАКТЕРНЫХ ЭЛЕМЕНТОВ ИЗОБРАЖЕНИЯ 223 


® Смежная однородность 


У Усі Јр. 


i 
e Смежная энтропия 


Е УУ сі Л: loga(Cli,j)). 


Использование этих дескрииторов в качестве вектора признаков, как правило, COCTOHT 
в обучении на примерах различных классификаторов наблюдаемых текстур с целью 
HX послелующего распознавания. 


Морфологические дескрилторы. Морфологические дескрипторы 06- 
ластей н фигур — морфологические спектры и скелеты — будут подробно описаны B 
главе 6 «Морфологический анализ изображений». 


4.1.5. Литература для самостоятельного изучения. В книге (Гонсалес, Вудс) 
[19] глава 10 посвящена сегментации изображений, а глава 11 — их представле- 
нию и описанию. Подробность изложения всех вопросов достаточно высокая. Данная 
книга нанлучшим образом подходит для дополиительного изучения данной темы B 
целом, 

В книге (Форсайт, Понс) [44] глава 9 посвящена анализу н синтезу текстур на 
основе частотных подходов H различных разложений. Поскольку этот вопрос совсем 
не затрагивается в нашем кратком курсе, данная глава нз [44] может быть рекомендо- 
вана целнком в качестве материала для дополнительного самостоятельного изучения. 

В книге (Шапиро, Стокман) [49] работе с текстурамн посвящена глава 7. Логика 
изложения соответствует нашему курсу, но объем существенно больше H изложение 
подробнее н глубже. Поскольку тема текстурного анализа описана нами чрезвычайно 
кратко, ланиая глава из [40] также может быть рекомсидована целиком в качестве 
материала для дополнительного самостоятельного изучеиня. 

В главах (4 н (6 книги (Форсайт, Понс) задача сегментации изображения (в WH- 
роком смысле) рассматривается соответственно в контексте кластеризации (разбне- 
иня выборки на классы) и вероятностной оптимизации (максимума апостериорной 
вероятности H байесовского подхода) Этн подходы к сегментации изображений на 
области практически не раскрываются в нашем курсе, поэтому рекомендуем озиа- 
комиться с 14 н 16 главамн кингн [44] в рамках углубленного самостоятельного 
изучения данного курса. 
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4.2. Сравнение и привязка изображений. Стереоотождествление 


4.2.1. Сравнение изображений и задача стереоотождествления. Одна нз основ- 
ных задач машинного зрения, которую необходимо решнть для создания алгоритмов 
обнаружения трехмерных структур по изображениям — это задача поиска соответ- 
ствующих точек на изображениях сцены, полученных с различных ракурсов. Дан- 
чая задача HOCHT название задачи стереоотождествления (correspondence problem), 
а различные алгоритмы ее решення называются алгоритмамн стереоотождествления 
(matching procedures). 

Ha примере задачи стереоотождествления мы рассмотрим в данном разделе раз- 
личные техники сравнения изображений. При этом мы будем периодически напомн- 
чать о том, что задача сравнения изображений, вообще говоря, нмеет гораздо более 
широкую сферу приложення — от обнаружения объектов до распознавания образов. 

Решение задачн стереоотождествлення н получение значений диспаратностн для 
любых точек изображения позволяет после вычисления параметров орнентнрования 
лолучить функцию дальности до видимого рельефа наблюдаемой сцены. Апрнорные 
знания о трехмерной форме объектов, составляющих вндимый рельеф (ЦМР), дают 
303MOXKHOCTb в ряде случаев применить для обнаружения объектов заданной формы те 
же методы обнару ження, что н для нзображения. Например, корреляционные методы, 
методы основанные на морфологии Серра, метод нормализацин фона применялись для 
обнаружения пятен известного размера и формы (30-1055) no LIMP в задачах Bbl- 
деления антропогенных объектов на авнационно-космических изображениях (Азсопа, 
2001), а также в задачах обнаружения замаскированных объектов военной техники. 

Несмотря на многочисленные попытки создания универсальных методов Понска 
соответствующих точек на стереопаре, эта задача до конца не решена ввиду CC слож- 
ности, соответствующей сложности общей задачн поннмания нзображений. Первые 
эксперименты в этой области относятся к 1950-1960-м гг. [275], [281]. Основная naen 
автоматического стереотождествления состояла в том, что в предположенин, что до- 
статочно малые соответствующие участки стереопары подобны, можно преобразовать 
фотонзображенке в электрические сигналы H анализировать этн сигналы для ряда 
точек, равномерно расположенных в пределах этих участков. С появлением цифро- 
вых изображений H разработкой методов ux обработки H распознавания образов этн 
исследования получили дальнейшее развитие. 

Из-за отсутствия общепринятой терминологии в данной работе будут употреблять- 
ся следующие термины. 

Под образом на снимке поннмается отдельная область снимка в COBOKyTIMOCTH 
с информацией, которая может быть получена из этой области, причем размеры н 
конфигурация образа могут быть самыми различными, 

Мера близости образов — количественная характеристика соответствия образов. 
Мерой близости может быть максимум HJIH минимум некоторого критерия, например, 
максимум корреляционной функции или минимум суммы квадратов расхожденнй эле- 
ментов, составляющих образы. 

Метод стереоотождествления выполняет измерение функции меры близости 
образов и выбор образов, соответствующих друг другу. Названия методам обычно 
даются по типу отождествляемых образов, например площадное, признаковое, CHM- 
вольное стереоотождествление. 

Во многих методах стереоотождествления один из образов фиксируется, а co- 
ответствующий образ ищется (обнаруживается) на другом изображении с помощью 
выбранного метода стереоотождествлення. Неподвижный образ будем называть эта: 
доном. 
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Стратегия стереоотождествления определяет общую схему решения задачи 
автоматического стереоотождествления. Нанболее распространенные стратегии — 
нерархическое отождествление H стратегия c применением нейронных сетей. 
В табл. 4.2.1 показано, как соотносятся введенные понятия. 


Таблица 4.2.1. Методы стереоотождествления 


Метод Мера близости образов Образы 

отождествления 

Площадиое Корреляциониая функция, сумма Участки исходного 

отождествление каадратов расхождений яркости изображения 
Признаковое Целевая фуикция Края и их атрибуты 
отождествление 

Снмвольное Целевая функция Символьпое описание 

отождествлепие 


В публикациях по данной теме исследуются разнообразные подходы к стереоотож- 
дествлению. Наиболее известные среди площадных методов следующие: 

Нормализованная корреляция. Этот метод является нанболее простым H был раз- 
работан в числе первых. В работе [275] описана одна из первых систем автоматиче- 
ского стереотождествлення на основе вычисления нормализованной корреляционной 
функции двух образов, которая дает удовлетворнтельные результаты для изображе- 
ний песложных сцен. B дальнейшем в корреляционную схему вводились усовершен- 
ствовання, например, адаптнвное окно корреляцин [280] н коррекция геометрических 
искажений при измененин ракурса [281]. 

Отождествление методом наименьших квадратов [119]. Здесь в качестве меры 
близостн образов используется сумма квадратов расхождений яркости. Особенности 
данного метода в следующеи: 

e нтеративная процедура: 

e предположение о кусочно-постоянной поверхиостн объектов в небольших окрест- 
ностях; 

e адаптнвное устранение геометрических H яркостных искажений образов; 

e субпиксельное отождествление с оценкой точностн; 

e необходнмость начального приближения. 

В работах [119], [175] этот метод получил дальнейшее развнтне на случай нспользо- 
вания более двух изображений. 

Средн признаковых методов отождествления нанболес известны следующие: метод 
на основе динамического программирования [282], метод на основе релаксации [283]; 
метод на основе робастного оценивання [277|; метод на основе отождествления графов 
[274]. 


4.2.2. Проблемы, возникающие при стереоотождествлении. Задачу стерео- 
отождествления можно разбить на следующие подзадачн: 

e выбор эталона на одном изображенин; 

e обнаружение соответствующего эталону образа на другом нзображенни; 

e субпиксельное уточнение положення образа, соответствующего эталону; 

€ оценка качества стереоотождествлення. 
Изображения стереопары отличаются друг от друга H3-38 совокупностн факторов, 
которые можно разделить на четыре категории: 

Глобальные факторы — равномерно нскажающне уровень интенсивности харак- 
теристнк всех элементов сцены (поля) н вызывающие геометрическне нскаження pa3- 
личного характера. 
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Региональные факторы — равномерно нскажающине уровень интенсивности ха- 
рактеристик только внутри однородных областей сцены, например, изменение контра- 
ста илн яркости. 

Местные факторы — независимо воздействующие на каждую элементарную CO- 
ставляющую сцены HIH их группировку, например, аддитнвный или мультипликатив- 
ный шумы. 

Неструктурные факторы — изменяющие характерные признаки сцены, напри- 
мер, частичное закрытие сцены облаком, нскаженне сцены тенями H потускнениямн, 
H T. n. 

Далее кратко обсуждаются основные проблемы, возникающие при CTepeooTOX- 
дествлении, для преодоления которых пока не найдено универсальных способов. Онн 
возникают во всех методах стереоотождествлення, н качество конечного результа- 
та, который независимо от источника стереонзображений удобно назвать инфровой 
моделью рельефа (LIMP), напрямую зазиснт от того, насколько успешно они будут 
преодолены. 

Область поиска. Пусть изображения имеют размеры M х № пикселов n об- 
ласть перекрытня составляет сх процентов. Тогда, чтобы найтн некоторый эталон f 
левого нзображення, вся область перекрытня правого изображения должна быть про- 
верена иа наличие образа f. Это требует порядка М Мпо операций, где n — число nuk- 
селов B эталоне. Если необходимо найти соответствие всем пикселам левого изображе- 
ния, требуется k = (М Nna)? операций. Для реальных стереопар хх = 0,6, М > 1000, 
поэтому полное время стереоотождествления становится недопустимо больщим. 

Для ограничения областн поиска соответствующего образа используются слелую- 
ILHE основные методы. 

1) Применение эпнполярной геометрин. Еслн известны параметры орнентаинн CTe- 
реопары, то соответствующие точки должны лежать на соответствующих эпиполяр- 
ных линиях. Эпиполярная линия для некоторой точки (X,Y,Z) объектного простран- 
ства является линией пересечения плоскости изображеиня H плоскости, проходяшей 
через центры просктироваиня камер и точку (Х,У, Z). Применение эпнполярной reo- 
метрин позволяет существенно снизить область понска, так как областью поиска в 
данном случае является прямая линня, а не вся область перекрытия изображений. 

2) Априорное оцепиванне рельефа по высоте. Этот способ дает ограничения на воз- 
можные значения параллаксов. Чем точнее можію заранее оценить днапазон высот 
рельефа, тем меньше диапазон допустимых параллаксов для данной стереопары. Для 
оценивания используют либо карты местности, лнбо ручные стереонзмерения объек- 
тов, либо производят построение ЦМР с грубым разрешеннем H по ней производят 
оценку. 

3) Применеине пирамиды изображений (нерархическое стереоотождествленне). 
Этот способ основан на том, что если изображение прореживается в т раз, то дву- 
мерная область поиска уменьшается в M? раз. 

Метод стереоотождествлення, описываемый в данной работе, направлен Hà мак- 
симальную скорость вычислений и использует все трн способа ограничения области 
поиска. На обычной персональной ЭВМ это дает скорость стереоотождествлення до 
500 и более точек в секунду. 


Уникальность эталона. Чтобы найти некоторый пиксел р левого изоб- 
раження с координатами (ip,jp) M яркостью gp на правом нзображеини, вся область 
перекрытия правого изображения должна быть проверена на наличне пнксела р. Пред- 
положим, что каждое значение яркостн присутствует на нзображениях с одной и той 
же вероятностью H нет яркостных искажений. Тогда на области поиска размером 
M, на N, пикселов будет в среднем М, №, /256 отождествлений пиксела р, H3 KOTO- 
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рых только одно правильное. В присутствии шума на изображениях неодиозначность 
отождествления возрастает. 

Для устранения неоднозначности отождествления нспользуются эталоны с разме- 
рами большими, чем одни пиксел. Чем больше размеры эталона, тем сильнее он от- 
личается от других участков изображення; тем самым обеспечивается однозначиость. 
Чтобы повысить вероятность правильного отождествления, обычио выбнрают нанбо- 
лее информативные эталоны, содержащие ниформаиню о характерных особенностях 
изображения. Раздел 4.3 настоящей главы посвящен проблеме определения инфор- 
мативных участков изображений. В этом разделе проведено исследование некоторых 
вычислительно-эффективных показателей ниформативностн H предложен новый под- 
ход к определению ннформативиостн на основе анализа статистических свойств шума 
по оптическому клину. 


Начальные приближения. Проблемы, связанные с ограничением обла- 
сти понска H с неоднозначностью отождествления, можно разрешить, если уже извест- 
ны начальные приближения положения соответствующих точек. Чем точнее известно 
начальное приближение, тем меньше область понска н тем меньше вероятность то- 
го, что мера близости образов принимает дополнительные экстремальные значения 
(неоднозначность отождествления). Многие субпиксельные методы отождествления 
также требуют достаточно близкого начального приближения к истинному положе- 
нию соответствующих точек. Это достигается применением нерархических методов 
построения ЦМР. Сначала стронтся ЦМР с большим разрешеннем, которая затем 
интерполируется в промежуточных точках. Поскольку построение грубой ЦМР стал- 
кивается с уже обсужденными нами трудностями, осиовной выигрыш достигается 
именно за счет существениого уменьшения временн на построение грубой LIMP. 

Геометрические нскажения образов. Рассмотрим некоторый эта- 
лон иа левом изображении. Соответствующий образ на правом изображении имеет 

форму, отличную от формы эталона (рис. 4.2.1). Это 
отличие обусловлено несколькими причинами. Первой 
А В причиной является различие в орнентации камер. По- 
скольку сцена обычно наблюдается под разными ракур- 
сами, одни н те же участки объектов изображаются по- 
разному. Поскольку размеры образов обычио выбнра- 
ются небольшими (9-25 пикселов), этот тип искажений 
моделнруется б-параметрическим аффниным преобразо- 
ваннем. 
° Второй причиной геометрических искажений явля- 
ется трехмерная форма наблюдаемых объектов и релье- 
фа. Если поверхность участка сцены находится под уг- 
лом к базисной линин камер, то ракурсные искажения 
могут быть существенными (рис. 4.2.1). Для обеспече- 
ния точности стереоотождествления необходимо учн- 
тывать этот тип искажений. Это можно сделать двумя 
способами. Во-первых, можно непосредственно модели- 
ровать данный THn искажений. Для этого применяется 
8-параметрическая проектнвная модель. Поскольку uc- 
кажениям за счет рельефа подвергаются большие участки изображений, размерами 
которых пренебрегать нельзя, 6-параметрическая модель здесь не подходит. Вторым 
способом является коррекция исходных изображений. Для этого нспользуется нерар- 
хическая стратегия создания ЦМР. Сначала получается первое приближение ЦМР, 
которое используется для пересчета исходных изображений с целью убрать искаже- 


Рис. 4.2.1. Геометрические иска- 
ження образов 


42 СРАВНЕНИЕ И ПРИВЯЗКА ИЗОБРАЖЕНИЙ. СТЕРЕООТОЖ ДЕСТВЛЕННЕ 229 


ния. вызванные рельефом. Затем по пересчитанным нзображенням создается новое 
приближение к ЦМР. 

Другой причиной геометрических различий образов является нспользованне ка- 
мер, отличающихся по принципу получения изображений, например, если одно H306- 
ражение получено камерой с центральной проекцией, а другое — с помощью панорам- 
ной камеры. Этот тип искажений существенно отличается от типов, рассмотренных 
выше. Для учета его применяются более сложные модели, например, полнномнальная 
модель п-го порядка. 

В табл. 4.2.2 перечислены рассмотренные типы нскажений и применяемые для HX 
учета модели преобразований. 


Таблица 4.2.2. Причины геометрических искажений образов H их модели 


Причниа Модель Уравнения Количество 
геометрических преобразований определяемых 
искажений а 

Различная Аффниная ИЕ do Farz Fazy 

ориеитация камер у =bo + bir Ву 


г = 
Рельеф н Проектнаиая colciz ни: 
— batbyrtbay 
трехмерная форма = со+срх+сзу 
объектов 


Разиый тип Полиномнальиая 
проектирования 


В целом, геометрические нскажения образов вызываются принципиальной невоз- 
можностью точного совпадеиня условий наблюдения (по координатам) одной H той же 
сцены (участка двумерного поля} для получення изображений стереопары. Эффект 
воздействия ошибок, вызваиных этими искаженнямн, на корреляционную функцию 
как метрику сравнения двух изображений, проявляется B уменьшенни собственного 
значения экстремума H в увеличении ширины этой фуикцин в окрестности экстрему- 
ма. 

Яркостные различия образов. В настоящее время не существует ob- 
щепринятой модели изменчивости оптических характеристик трехмерных сиен, охва- 
тывающей все возможные условия наблюдения. Объясняется это, прежде всего, мно- 
гообразием условий наблюдення и характером изменчивости природных образований 
H объектов, отсутствием достаточно полного объема экспериментальных данных о 
характеристнках изменчнвостн. 

Для сравнительно небольших участков сцены. когда угол наблюдения и дальность 
можно считать постоянными, изменения наблюдаемой иа входе прнемного устройства 
яркости текущего изображения fH можно описать моделью внда 


Гн(т,у) = afo(z, y) + b, (4.2.1) 


где fo(r,y) — зависимость яркостн эталонного изображения OT координат т, у; а н 
b — коэффициенты, описывающие изменение наблюдаемой яркостн. При этом а > 0 
всегда, b — может быть больше илн меньше 0 в зависнмости от условий наблюдення. 

Целесообразно представление всего изображения совокупностью п областей, в 
пределах каждой из которых коэффициенты яркости изменяются пропорционально, 
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самн области не пересекаются H в сумме образовывают полное изображение, т.е. 


Р(х,у) = Y Ро, (тики. 4). (4.2.2) 


i=l 


rae X;(x.y) #0 в і-й области, х;(х.у) = 0 вие {-Й областн. Очевидно, что такое раз- 
биение можно сделать всегда, уменьшая размер соответствующих областей. Модель 
изменчивости в этом случае можно представить в виде 


fu (2.9) = У Ли (ту) + хит). (4.2.3) 
i-1 


где а;, b; опксывают изменение наблюдаемой яркости в і-й области. Очевидно, что 
такая модель хороша лншь в тех случаях, когда возможно представление изображения 
относительно небольшим числом соответствующих областей. 

Могут наблюдаться резкие варнадии освещенностн из-за наличия теней от объек- 
тов. При этом герепады освещенности могут достигать нескольких раз. В этом случае 
можно представить модель изменчивости в виде 


Јн(2.у) = a(z. y) folz, y) + b(z.y). (4.2.4) 


где a(r,y) и (г.у) имеют тот же смысл, что H B приведенных выше моделях измен- 
чивости, но меняются в зависимостн от изменения пространственных координат =, у. 
Поведение этих коэффициентов практически невозможно предсказать заранее, а ха- 
рактерные размеры на изображении в этом случае часто сонзмернмы с характернымн 
размерами природных образований. Случайный характер поведения коэффициентов 
a(z,y), b(z,y) к широкий диапазон изменения их статнстических характеристик npH- 
водит к большим трудностям практического использования данной моделн в аналн- 
тнческих исследованиях. 

Для обеспечения качественного стереоотождествлення площадными методамн 
необходим учет функций а(х, y), b(z,y). Корреляцнонная функция автоматически учн- 
тывает эти функцин путем центрирования H нормирования яркостн образа. B стерео- 
отождествленки методом наименьших квадратов эти функцин ВВОДЯТСЯ ЯВНО B ВИДе 
параметров модели. 

Ложное отождествление. На рис. 4.2.2 показан пример корреляционной 
функцин, получаемой прн стереоотождествлении. Положение максимума корреляцн- 
ониой функции определяет положе- 
нне соответствующего образа. При 


ie увеличеини зашумленности изобра- 
| m Kw ження значення боковых максиму- 
| < ў к мов могут превысить значение глав- 
0 AN Зозе A ое We ного максниума (CN, подраздел 2.2). 


"ro. 


esr SNP SS 3 д ; 
5555952003 то является одной из главных при 
чин аномальных ошибок ложного 
Рис. 4.2.2. Прнмер корреляционной функини. получен- отождествления. На увеличение 6o- 
ной при отождествленни участков Изображений ковых максимумов по сравнению с 

главным максимумом влияют также 
геометрические H яркостные различня образов, затененне и загораживание объектов 
на изображении. Чтобы уменьшить вероятность ложного отождествления, применя- 
ются методы ограннчения областн поиска. Область понска ограничивается так, чтобы 
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ло возможности локализовать главный максимум H уменьшить число боковых максн- 
MYMOB. 


4.2.3. Корреляционное сопоставление изображений. Траднцнонная техника 
сравнения текущего изображения с эталоном основывается на рассмотренни нзобра- 
жений как двумерных функций яркости (дискретных двумерных матриц интенсив- 
ности). При этом измеряется лнбо расстояние между изображениями, либо мера HX 
близости. 

Как правило, для вычисления расстояний между изображениямн используется CO- 
отношенне 


11а 
о(/.9) = | YS M(izy-s(^ (4.2.5) 
(2,у)СсХ 
гле f(x,y), 9(т.у) — функцин интенсивности, X — поле зрения. 


Величина « € [1,20) в (4.2.5) определяет характеристики используемой метрики. 

Очевидно, что при & = 2.это выражение описывает обычное евклидово расстояние 
между, изображениями, рассматриваемымни как векторы, принадлежащие простран: 
ству [2(х,у) на поле зрения X функций интенсивностей с интегрируемым квадратом. 

Пусть дано и эталонных изображений {/;}, { = 1,...,n, каждое из которых CO- 
ответствует :-му классу. Отиесение вновь предъявляемого фрагмента изображення g 
к некоторому классу j может осуществляться, например, по методу минимального 
расстояния до соответствующего эталона: 


j = argnino(g. fi). 


Этот простейший метод имеет два основных недостатка: 

Критернй обнаруження зависит от линейных размеров эталона H изображення. 

Критерий обнаружения не инвариантен даже к простейшим фотографическим Npe- 
образованиям яркости вида f' —af + b. 

Более приемлемым поэтому является нспользование корреляционной метрики, а 
нмеино, нормированного коэффициента корреляции [53], [119] 


Y (fie) - 8°) (902.0) – 9) 
о (ZVEX А5 y)EX 


TA? (f(,9) ~ У ею] бей (9(1,у) — 9?) 
(z.y)€X (z.y)€X 


гле fO, g? — средине зиачения интенсивности для изображений f н д соответственно. 

Нормированный коэффициент корреляции обладает следующими хорошо извест- 
нымн свойствамн: 

1) -1« K(f.g) < L V f.g; 

2) (K(f.g) = 1) < (g- af + ba » 0, Vb); 

3) (К(/,9) = -1) =] (g m af + ba «0, v D). 

Последнее свойство, как правило, называют «обратным контрастом». 

Пусть, как и ранее, дано п эталонных изображений (fi), i = 1,...,п. каждое из 
которых соответствует 1-му классу. Обнаружение фрагмента изображения g по методу 
максимальной корреляционной связи осуществляется тогда по правилу 


К (Г, 9) = 


j = arg max K 1g. fi). 
t 
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После этого на основании полученного значения максимальной корреляции может 
проверяться достоверность детектирования. Если K(g,fi)2 Kui, то обнаружение 
призиается достоверным. В противном случае объект считается нераспознанным. Teo- 
ретическим обоснованием применения корреляцнонного метода обнаружения являет- 
ся его строгая оптимальность для обнаружения детермнннрованного сигнала в белом 
шуме с гауссовым распределением яркостей [12]. 

Важные недостатки корреляционных методов обнаружения проявляются B TIpHCyT- 
ствин радиометрических {яркостных) н особенно геометрических искажений текущего 
изображения по сравнению с эталонным. В частности, наблюдается быстрое умень- 
шение корреляционной связи при так называемых ракурсных искажениях, например, 
при поворотах изображений. Присутствие искажений типа «warping» обычно уже не 
позволяет использовать корреляционные методы обнаружения [12]. В то же время, 
для этого класса алгоритмов предложено большое чнсло процедур, позволяющих ли- 
бо повысить MX работоспособность, либо значительно ускорить процесс поиска. На 
этом пути были разработаны нерархическне корреляционные алгоритмы, значительно 
сохранившие актуальность и на текущий момент. Конструктивная идея уменьшения 
времени поиска лежит в основе метода амплитудного ранжирования [54]. Согласно 
этому методу надлежит анализировать скорость роста корреляции по мере обработ- 
ки Поля зрения и, если эта скорость иедостаточна, прекращать обработку текущего 
фрагмента, переходя к следующему. Для того чтобы добиться инвариантности кор- 
реляцнониых алгоритмов хотя бы к аффинной группе преобразований, были испро- 
бованы различные преобразования изображений, например преобразование Меллина 
[12]. К сожалению, в силу недостаточной устойчивостн корреляционных алгорнтмов к 
возможным искажениям, они не находят широкого применения при конструировании 
алгоритмов обнаружения сложно структурнрованных объектов. 

Отдельное направление, использующее корреляционные методы обнаружения, это 
создание когерентных устройств обработки — оптнческих корреляторов [12], [51]. 
Исследования в этом направлении актнвно продолжаются, так как даже несмотря 
на значительные конструктивные трудности борьбы с изменчивостью эталонов, ре- 
ализуемая здесь фантастическая скорость обработки (скорость света) привлекает к 
себе пристальное внимание. Проблематика построения оптических корреляционных 
устройств не является предметом рассмотрення данной главы. Тем не менее, укажем, 
Что практнка использования оптических корреляторов выявила неожиданно высокий 
уровень ошибок аномального обнаружения объектов. 


4.2.4. Корреляционное стереоотождествление. Метод корреляцнонного сте- 
реоотождествления состонт в следующем. Обозначим 

(21,31) — координаты центра эталона, выбранного на левом изобра женин; 

(zr, yr) — координаты центра образа, выбранного на правом изображении: 

f(x + zı, у +y) — функция яркости эталона; 

9(т + Tr, у + уг) — функция яркости образа; 

R = { (£r. yr) : Emm < Tr < Zmax: Ymin < Yr € Ymax} — Прямоугольная область NO- 
иска на правом изображении; 

S(R) — количество пикселов внутри области R. 

Каждая точка области А берется в качестве центра образа, который сравнивается 
с эталоном. Мерой сходства является корреляционная функция 


У fiz + п, у+ и) (= + ze y * yr) - КД 
К (х,у) = e) 


1 
(E (= +, у+и) – Nf?) 27 35 g'(z + zr, y + yr) - №?) 
(zy) (=,у) 


1/2 ' 
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где знак ^ обозначает суммирование по всем пикселам эталона; № — количество 
(z.y) 
пикселов B эталоне. Средняя яркость находится по формулам 


-= 1 Е 1 
==) f(rtzs,yty» 9=- J 9(т+1ь учу»). 
N N 
(х,у) (х,у) 


Задачу стереоотождествления можно сформулировать следующим образом: найти зна: 
чения координат (77,97), При которых корреляционная функция достигает максимума 


(£r, y.) = arg тах К(г,,у,). 


В качестве критернев качества стереоотождествлення могут служить следующие 
характеристики: абсолютная величина максимума, кривизна корреляционной функ- 
ции в точке максимума, количество боковых максимумов. Чем более ниформативным 
является эталон, тем сильнее выражен главиый максимум по сравненню с боковыми 
максимумами. Чем точнее определена область поиска R, тем меньше B нее попадает 
добавочных максимумов. 

Ha рис. 4.2.6 показана LIMP, полученная обычным корреляционным методом по 
тестовой стереопаре (рис 4.2.4). Область понска для всех эталонов была принята 
одинаковой и равнялась 30 x 5 пикселов. На полученной ЦМР ясно видны ошиб- 
ки стереоотождествления, связанные с большой зашумленностью изображеннй H как 
следствне этого с перепутыванием главного н добавочных максимумов корреляцион- 
ной функции. 

Один из способов избежания аномальных ошибок перепутывання состоит в уве- 
личенни размеров эталона, однако это увеличивает время стереоотождествления H 
уменьшает точность стереоотождествления. Другим способом является ограничение 
области понска R за счет использования на- 
чального приближения координат макснму- 
ма корреляционной фуикцин. Для этого ua- 
сто использовуют пирамиду изображений. 


4.2.5. Сопоставление с использовани- 709% N 


ем пирамиды изображений. Изображе- 
ние сцены может быть представлено в раз- 
личных пространственных масштабах. При 
этом крупные деталн сцены лучше видны Уровень №-1 
на изображениях с мелким (грубым) разре- 
шеннем. Мелкие детали сцены проявляют- 
ся только на изображеннях C высоким раз- (х )- (хь у) 
решением. Изображение, представленное в SMr +) T VT Ум 
нескольких масштабах, в дальнейшем назы- рис. 4.2.3. Приицип построеиня пирамиды 
вается пирамидой. Принцип построення пн- изображений 
рамиды изображений показан на рис. 4.2.3. 

Использование пирамидальной структу- 
ры данных при сопоставлении изображений нмеет две осиовные цели: 

1) сокращение времени обработки изображений; 

2) определение более точных начальных приближений для обработкн нижних 
уровней по результатам обработки верхних уровней. 

Пирамида изображений представляет собой последовательность № изображений, 
причем каждое последующее нзображенне получается из предыдущего путем филь- 
трацин н прореживання в два раза по схеме: 


(хь уу) 
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Исходное изображение /м-! (х.у) 


Высокочастотная фильтрация c ядром h(u.v) 
g(r.y) = [ f fu (x — uy — v)h(u.v)dudv 


Уменьшение размеров в 2 раза 
Шм(т.у) = 9(2т,2у). 


Фильтрация изображений необходима для подавлеиня высокочастотных шумов. 
В качестве ядра h(u.v) используется фуикция Гаусса. По этой причине пирамида 
называется гауссовской [46]. Согласно теореме Котельникова сжатие в гауссовской 
пирамиде происходит с минимальной потерей ннформации. 

Изображенне fy (=, у) представляет собой уменьшенную копию исходного нзобра- 
жения Л(т.у). Размер пиксела изображения уровия N равен 

рм = 2-1. 

Для координат пикселов изображений двух произвольных уровней пирамиды с 

номерами п и т справедливы соотношения 


P-ta z om m. "у = gn: 


На рис. 4.2.4 показан пример пирамнды из четырех уровней для левого нзображе- 
иня тестовой стереопары. 


Рис. 4.2.4. Пирамида из четырех уровней для тестового изображения 


Рассмотрим, как изменяется область понска А при использовании пирамнды H306- 
ражений. На №-м уровне площадь области понска сокращается в (2^-!)2 раз: 


fmi г Wmi y 
Ry (e m er S S eue on] (426) 


Пусть на п-м уровне найдено стереосоответствие в точке (z*.y* iN € Ry. 
Эту точку можно рассматривать B качестве дентра области понска на (N -1)-м 
уровне: 


Ry д = (7,9): 25°.- A, ST < 2° + Л, 2у* - А, <у0<2у° +А,}. (4.2.7) 
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где Âr, А, — консталты, характеризующие размер области понска, например, Д, = 2, 
А, = 1. 

Время работы алгоритма стереоотождествления пропорционально количеству пик: 
селов в области поиска. Без применения гнрамиды изображений время работы равно 


Т = aS(R) = «(Ттах — Хана + li(Jmax — Ymin + 1). 


При использовании пнрамнды изображений время работы алгоритма равно 


N 
. 0 (= — хип + 1) (и — упин + 1) е 
Т, = aX PR = а EIE + (М — 1)(2А, + 1)(2А, + 1). 
Отсюда видно, что чем больше область поиска и чем больше уровней содержится 
в пирамиде, тем быстрее работает алгоритм стереоотождествлення. При следующих 
значениях констаит: Tmax — Zmin - 1 = 100, Ymax — Ymin + 1 = 5, N24, Д, = 2, А, = 
= 1 применеине пнрамиды стереопар дает вынгрыш во времени 


T./T; z 5, 


Для каждого эталона, выбраниого на левом изображении, на всех уровнях пнира- 
миды решается задача стереоотождествления 


(25,071: = агв тах К (тк, уг), = №,...,1 
-YER 

Область Hy определяется выражением (4.2.6), области А, (i2 № — 1,...,1) — 
выражением (4.2.7) с использованием начального приближения izz, yz); На самом 
нижнем уровне (который представляют собой нсходные изображения) получаются 
значення (r7, у) 1, которые определяют положение образа, соответствующего эталону. 

Задача стереоотождествления решается путем последовательного перебора значе- 
ний параметров сдвига из допустимого днапазона. На верхнем уровне (т.е. на изобра- 
женин с самым низким разрешением) для ограничения области поиска используется 
эпкполяриая геометрия н априорное оценивание днапазона высот рельефа. На более 
детальных уровнях используется начальное приближение, полученное с предыдущих 
уровней. 

На рис. 4.2.5 показан процесс построения ЦМР по пирамнде. Для каждого уровня 
пирамиды показана ЦМР. полученная к данному моменту. Наглядно видна постепен- 
ная детализация LIMP, связанная с постепенным уменьшением размера пиксела, H 
как следствие этого с уточнением диспаратностей. 


Рис. 4.2.5. Вычисление UMP с помощью нерархического корреляциониого сгерсотождествлепия по 
четырехуровиевой пирамиле изображений с использованием: а — только 4-го уровня пирамиды; 6 — 
4 и 3-го уровией; в — 4, 3, 2 урозией: г — 4, 3, 2, 1 уровней 
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На рис. 4.2.7 показана ЦМР в виде поверхности, вычисленная по пирамиде сте- 
реопар. Видио, что примененне пирамиды позволяет избежать основных недостатков 
обычного корреляционного стереоотожлествлення (рис. 4.2.6). 


Рис. 4.2.7. UMP, вычислеиная с помощью пирамиды изображений 


4.2.6. Сопоставление нзображений на основе «характерных черт». При ре- 
шеини задачи сравиення изображений важнейшую роль играет нерархический анализ 
«первичных» особенностей изображений — так называемых «характерных черт» [55], 
[146]. Такие «характерные черты» могут быть использованы для сравнения текущего 
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H эталонного изображений B большом числе методов, например, при нерархической 
корреляционной обработке, методах голосовання, или объемных схемах сравнения. 
При этом в качестве особенностей изображения используются особые точки, линин, 
областн и структуры (группы особенностей). Рассмотрим кратко подходы, основанные 
на использовании точечных и контурных особенностей. 

Сопоставление на основе точечных особенностей. Основнымн достоинствами 
использования характерных точек для задач обнаружения являются простота H CKO- 
рость выделения (по сравнению с другимн используемыми характерными признака- 
ми). Кроме того, на изображениях не всегда удается выделить другне характерные 
черты (хорошне H четкие коитуры HAH областни), B то время как локальные особенно- 
CTH в подавляющем большинстве случаев выделить можно. 

Задача обнаружения объекта на изображении сводится к поиску характерных TO- 
чек и фиксации их взаимного расположения. Этн процедуры выполняются сначала на 
эталониом изображении, затем на исследуемом, часто в определенной ограинченной 
областн noucka. Общая схема алгоритма понска соответствующих точек COCTOHT нз 
несколько этапов: 

— выделение точечных особенностей на изображеннях; 

— формирование векторов признаков точек; 

— сопоставление точек в пространстве признаков; 

Выделение и описанне характерных точек на нзображенин является начальным H 
ключевым этапом в алгоритме отождествлення, от которого 3aBHCHT результат работы 
всего алгоритма. Этот этап был рассмотрен ранее в разделе 4.1. 

Однако какую бы сложную форму HH имели инварнанты, онн все равно не B CO- 
стоянии B 100% случаев уникально охарактеризовать объект. Неоднозначности, TO 
есть случан, когда разные объекты (точки, области) на изображении характеризуют- 
ся очень похожими параметрами, могут быть связаны с несовершенством выбранных 
инвариантов, с низким разрешением или шумом на изображении. Неоднозначностн 
также возникают при наличии на изображении повторяющихся объектов. Один из 
способов разрешения неоднозначных ситуаций связан с разработкой более качествен- 
ных инвариантов HAH нных дескрипторов; это направление очень актуально средн 
исследователей, заннмающихся машинным зреннем. Параллельный подход состонт в 
использовании пространственных соотношений между объектами. 

Алгоритмы на основе пространственных отношений, принадлежащие к более вы- 
сокому уровню обработки, чем растровые алгорнтмы, характернзуются более высокой 
устойчивостью к разлнчным геометрическим н раднометрическим искажениям. Од- 
ним нз показателей «правильностн» найденной пары может служить скопление вокруг 
точек, образующнх такие пары, большого числа других правильно сопоставленных 
точек. Другнм критернем, на основе которого можно отсенвать неверно привязанные 
точкн, может быть расположение точек от- 
носительно прямых. В данном разделе рас- 
сматриваются метрический н топологнческий e 4, 9 
фильтры, отбраковывающие неверные соот- 
ветствня, базируясь на взанмном расположе- 
нии объектов на изображенни. А ò 

Метрическое сопоставлеине. Для того A, 
чтобы проверить правнльность составления 
пар кандидатов, привлекается дополнитель- 4, о 
ная кнформацня о взаимном пространствен- Ау 
ном расположении точек на плоскости нзоб- 
раження. Другими словами, пространствен- Рис. 4.2.8. Распределенне особых точек 


a 
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ное расположение точек на правом H лезом изображенин должно быть B определенном 
смысле схожим. Простраиственное расположение может быть описано как матрица 
расстояний. Рассмотрим набор точек 41, À2,..., Aj, ..., AN В плоскости изображения 
(рис. 4.2.8). 

Расстояния между точками могут быть записаны B виде матрицы расстояний ||г;;|| 
следующим образом: 


AN 0 


где Tik = V/(z; — zx)? — (y; — yk)? — евклидово расстояние между А; и Ах, rj, y; — 


координаты точки А, на изображеннн, тк, ук — координаты точки Ах на изображении. 

Для проверки правильности формирования сопряженных пар точек сравниваются 
матрицы расстояний левого |r} || и празого Ш изображений. Для количественной 
оценки ошибочного связывания вводится переменная ij» 

õi; = rB - ri. 

Анализ гистограммы распределения bij позволяет оценнть величину порога отбра- 
ковки ошибочных пар Д согласно критерию, описанному ниже. Заметим, что точка с 
номером i имеет Л — 1 связей, причем соответствующие расстояння в матрице ||т || 
СУТЬ: Tiv Tar. Ги» и». . Ti v. Соответственно, вектор расстояний, ассоциирован- 
ный с парой номер i есть 


5: = {615,62 би, бани. бам} 


где 
|1811 = min(61;.62;, . ... 66,6541... 46, N) 


— норма вектора Ó,. 


Рис. 4.2.9. Отфильтрованные пары точек 
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Пара сопряженных точек принимается, если ||5;|| < А н отклоняется в проти- 
воположном случае. Процедура проверки выполняется для каждого i от 1 до N. 
Существенно, что предложенный критернй отбора на основе анализа матрицы (5) 
HHBapHaHTeH к вращению изображений. 

Для того чтобы сделать алгоритм более эффективным, нспользуется пнрамнда 
изображений. Начальное приближение для точек интереса находнтся на верхнем 
уровне пирамиды н затем уточняется на следующих уровнях C нспользованием KOP- 
реляции. Пример работы алгоритма при сопоставлении двух тестозых видеокадров 
представлен на рис. 4.2.9. 

Топологическое сопоставление. Рассмотрим тройку объектов (R].Rj,Rj) на 
изображении Vj H соответствующую ей тройку объектов (RÀ, R2, R3) на изображении 
Va. Под объектом понимается область изображения, например «интересная точка» 
(скажем, угол либо локальный экстремум яркостн) H ее окрестность, либо область 
более сложной формы. : 

Пусть ci = (ri,yi) — центр объекта (области) К,. Функция 


; 3. „2 1. „2 
side(R}. R2, R?) = sign | det | 7*7». 7v 7v | (4.2.8) 
у У WY 


принимает значение —1, если с! лежит по правую сторону от вектора, направленного 
из (2 в с, или значение |, если эта точка лежит по левую сторону от него. Таким 
образом, уравненне : 

slde(R1, R?, RẸ?) = side( R}, R2, R2) (4.2.9) 


означает, что точка с! лежит по Ty же сторону от вектора Ha обонх изображени- 
ях. Если для некоторой точки равенство (4.2.9) не выполняется, будем говорить, что 
точка нарушает отношение сторонностн. Такое происходит в случае, когда по крайней 


Рис. 4.2.10. Отношение сторонности — точка c! должна лежать по одну н ту же сторону (здесь — 
по левую) от направленного отрезка из c? в c? в обоих изображениях 


мере один нз трех объектов неверно привязан к своему аналогу B другом изображе- 
HHH или же если объекты He компланарны H имеется сдвиг камеры B направленнн, 
перпендикулярном трехмерной плоскости, содержащей wx центры. В последнем слу- 
чае точка может передвинуться на другую сторону от вектора (TO есть изменится ее 
параллакс), однако такое случается лишь с небольшим числом троек. Точки RL, R? 
и R3 удовлетворяют равенству (4.2.9) кли нарушают ero вне зависимости от порядка, 
в котором они появляются в тройке; необходимо лишь, чтобы в обонх нзображеннях 
они были пронумерованы в одинаковом циклическом порядке (по часовой стрелке или 
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протнв часовой стрелкн). На рис. 4.2.10 нзображены тройкн соответствующих точек, 
удовлетворяющих соотношению (4.2.9). 

Когда равенство (4.2.9) нарушается, можно сделать вывод о неверной прнвязке 
одного из объектов тройки, HO на данном этапе неясно, какого именно. Одной тройки 
для такого вывода недостаточно, однако, рассмотрев все возможные тройки, можно 
найтн объекты, которые с большей вероятностью, чем остальные, привязаны невер- 
но. Основная ндея метода, предложенного в [284], заключается в том, что неверно 
сопоставленные объекты чаще нарушают отношение сторонностн, | 

Равенство (4.2.9) проверяется для всех троек областей (А*, 2, R^), P, R^, R* € 
Ф.з, где Ф, — множество областей, присутствующих как на изображении Vi, так 
и на изображении У». Пусть Ф = (4r € $91). В начале алгоритма подсчитывается 


щтраф 
м= У |side (Ri, Rİ. RE) — side(Ri, 2, RE), (4.2.10) 


j.k€9N,3»5k 


TO есть количество раз, когда объект А’ нарушает отношение сторонностн (4.2.9), для 
всех i € Ф, Затем штраф нормнруется на максимальное количество всех возможных 
нарушений: 


га hli) 
hn() = (n — 1)(n — 2) 


, п= |Ф|. (4.2.11) 

Исходя из (4.2.11), получаем, что Ам(2) Е (0, 1]. Пользователем выбирается порог 
tiopo € [0,1]. Проанализировав штраф для всех объектов, определяется объект Л“, где 
ш = аге тах; hy (i), нарушивший отношение (4.2.9) чаще других. Если Им (w) > liopo, 
то объект R” (то есть пара объектов Ат, В) считается неверно привязанным н уда- 
ляется из множества Ф. На каждой итерации штраф hn (i) пересчитывается на основе 
оставшихся B Ф объектов H наиболее часто нарушающие отношение (4.2.9) пары yaa- 
ляются. Процесс продолжается до тех пор, пока есть объекты для удаления, то есть 
пока максимальное значенне штрафа на оставшихся объектах не станет меньше no- 
рога tiopo- 

Во время первых итераций, пока в множестве Ф нмеется достаточно много кандн- 
датов на удаление, даже верно привязанные объекты могут нметь высокое значение 
штрафа. Однако у неверно привязанных объектов штраф будет еще выше. После уда- 
ления наихудшей пары объектов, hy (i) для оставшихся объектов уменьшится, Когда 
останутся только правильно привязанные пары объектов, небольшие изменения па- 
раллакса по-прежнему будут давать ненулевые значення штрафа. 

Величина порога fiy, влняет на количество оставшихся после топологической 
фильтрации объектов. Нулевое значение порога приводит к тому, что остается неболь- 
шое число объектов, но все они полностью удовлетворяют топологическому отноше- 
нию сторонностн. Такой выбор порога разумен на относнтельно плоских изображе- 
ниях с малой глубиной. В большинстве случаев следует иметь B BHAY, что малое 
значенне порога приводит к нежелательному эффекту ошнбочного удаления ряда TO- 
чек/областей как неверно привязанных. Исходя из многочисленных экспериментов с 
наземными H аэрофотоснимкамн, нанболее желательно выбирать порог Нор нз 1Hà- 
пазона [0,03, 0,15]. 

Пронллюстрируем работу алгоритма на примере. Пусть некоторым алгоритмом 
найдено и привязано друг к другу 50 пар точек (рис. 4.2.11). На глаз можно опреде- 
лить, что ряд точек привязан друг к другу неправильно, то есть точки, помеченные 
одним номером, находятся в разных местах левого н правого изображений. 
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Теперь пропустим координаты nap точек через топологический фильтр с {ор = 
= 0,15 — останется 21 пара точек (рис. 4.2.12). Если же применить более строгую 


Рис. 4.2.11. Найлено и привязано друг к другу 50 пар точек. Примерно 2/3 соответствий являются 
ложными 


Рис. 4.2.12. После примсиения топологического фильтра с tipo = 0,15 29 пар точек удалено ках 
ложные соответствия, осталась 21 пара 


Рис. 4.2.13. После применения топологического фильтра с пор = 0,05 34 пары точек удалено как 
ложные соответствия, осталось 16 пар 


фильтрацию с Вор = 0,05, то останется 16 пар точек (рис. 4.2.13), причем все соот- 
ветствия являются верными. Никакие верные соответствия удалены пе были, причем 
данный метод успешно отфильтровал 34 пары, что означает, что 68% исходных соот- 
ветствий были ложными, 

Как видно, метод топологнческой фильтраини не столь чувствителен к точной 
пространственной локализации точек. Главный акцент в методе делается именно на 
взаимное расположение точек на изображении. 

Вычислительная сложность метода зависит от количества неверно привязанных 
пар H, в большей степенн, от исходного числа пар привязанных объектов. Нанбольшая 
часть вычислений приходится на вычисленне спределнтеля в формуле (4.2.8) для npo- 
BepkH всех возможных троек объектов. В исходном наборе из |Ф| = п пар-кандидатов 
необходимо проверить СЗ = пац 3) троек, так что итоговая сложность алгорнтма 
составляет O(n?), что довольно много, и это один из недостатков метода. По мере от- 
браковкн объектов число всевозможных троек уменьшается, и для ускорення работы 
можно в формуле (4.2.10) не пересчитывать штрафы заново, а подсчитать только те 
слагаемые, в которые входил удаленный объект, H затем вычесть этн слагаемые из 
выраження для h(i). 

Необходимо отметить, что данный метод плохо справляется с ситуациями, когда на 
изображении присутствует ярко выраженный передний н задний план. Например, если 
большинство областей находится на переднем плане, то областн заднего плана будут 
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часто нарушать отношенне сторонностн (4.2.9) в силу некомпланарностн с областями 
переднего плана. Часть правильных областей в таком случае будет отбракована, 

Сопоставление на основе контурных особенностей. Основным недостатком то- 
чечных особенностей является неустойчивость к раднометрическим измененням H306- 
раження. В то же время на реальных изображениях этот вид искажений встречается 
достаточно часто: блики, тени H другие эффекты, связанные с измененнем условий 
освещення, времени или сезона съемки. Другим недостатком точечных особенностей 
является их неустойчивость к ракурсным искажениям. Этот вид искажений также 
встречается во многих задачах, представляющих практический интерес. Поэтому воз- 
иикает необходимость привлечения информации о форме самого объекта как нанбо- 
лее устойчивой к изменениям такого рода, для решення задач координатно-плановой 
привязки. Форма объекта, безусловно, является нанболее устойчивой его Характерн- 
стнкой. Одна из сложностей поставленной задачи заключается в том, что на практике 
достаточно распространены случан сезонных изменений формы естественных (леса, 
водоемы) и искусственных объектов (дороги), не связанных C раднометрическимн HC- 
каженнямн. Отсутствие апрноркой информацин о моделях сезонных изменений форм 
объектов существенно затрудняет решение данной задачн. 

С интуктивной точки зрення форма объекта во многом определяется его гранн- 
uaMH. На плоском изображении границами являются контуры. Исследования психо- 
логов показывают, что мозг человека при распознавании изображений в нанбольшей 
степени опирается нменно на контурную информацию. Контуры более устойчнвы к 
изменениям освещенности, ракурсным искажениям, OHH инвариантным к повороту н 
‘изменениям масштабов. К достоинствам контурного представления также можно от- 
нестн значительное уменьшенне объема ниформацин, обрабатываемой при сравненин 
двух клк нескольких изображений, за счет того, что контурные точки составляют 
небольшую часть всех точек на изображенин. 

В данном разделе под контурами понимаются резкие перепады яркости на изоб- 
раженнях. В процессе использования контурной ннформацин для автоматического 
сопоставления (привязки) нзображений можно выделнть четыре основных этапа: 

€ выделение контурных точек; 

e прослежнвание контуров; 

€ опнсанне контуров; 

€ сравненне контуров в выбранном признаковом пространстве. 

Методы выделения контурных точек уже были ранее подробно рассмотрены в раз- 
деле 3.4. Задачн прослежнвания н опнсання контуров обсуждались в разделе 4.1. 
Рассмотрим теперь задачу сравнення контуров. 

Одной из ключевых проблем прн сравнении контуров на двух цифровых изображе- 
ниях является выбор атрибутов, определяющих индивидуальные особенностн контура. 
При этом можно выделить несколько основных типов признаков; метрические (длнна, 
ширина, орнентация, угол), аналитическне (параллельность, прямолннейность, KpH- 
визна), топологические (вложенность, соседство, пересечение, примыканне, наложе- 
нне). На практике нспользуется достаточно большое число атрибутов контура: длина, 
кривизна, площадь, периметр, число H положенне особых точек, показатель компакт- 
ности, положение центра тяжестн. Для создания более надежных алгоритмов распо- 
знавання целесообразно использование комбинаций признаков различных типов. 

Заметим также, что на реальных изображениях не всегда удается выделить до- 
статочное число замкнутых контуров. Поэтому для задачн идентификации контуров 
лучше использовать атрибуты, не завнсяшие от свойств замкнутостн контура. 

В зависимости от выбранных атрибутов используются различные методы сравне- 
ния контуров. 
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CpaBHeHHe контуров в естественном представлении. Пусть 
эталонное изображение содержит № различных контуров i = 1,.... N, тогда С = ій 
контур длинной l}. Область поиска на другом изображении содержит М различных 


контуров j = 1,..., M, тогда СХ — 1-й контур областн понска длиной h. Cj н C], 
представлены функциями кривизны (перегиба) Ку (1) н Kril) соответственно. 

Необходимо для каждого контура Cj, эталонного изображения найтн соответству- 
ющие контуры C^, нз области понска. 

Для решения поставленной задачи может быть использована процедура сравнения 
двух контуров, суть которой заключается в последовательном перемещенин функции 
K3(l) (контура Сэ) по функции Коп(/) (контура Соп), и в каждом текущем положе- 
нин вычисляется значение нормированного коэффициента корреляции 


э 
È (Ka (L) — Кэ) (Коп (lis) — KE) 
k(m, Сэ,Соп) = H А 


l l 
>. (Кэ(1:) – Ka)? Y (Kon (lizm) – Km). 


эз] іза | 


где т = 1,...,Гоп – la; Кэ(1) — функция кривизны C3 контура; Коп!/) — функция 
кривизны Соп контура; Кэ, Кт — средние значения нитенснвностн кривизны KOH- 
тура Сэ н фрагмента контура Соп соответственно. 

При этом необходимо, чтобы выполнялось следующее условне: [5 < log. 

Фиксируется положение, при котором достигается максимальное значенне коэф- 
фициента корреляции, прн этом паре контуров Сэ и Соп ставится в соответствие 
значение коэффициента корреляцин в данном положении. 

После того как коэффициенты корреляции найдены для всех контуров области 
понска, необходимо выбрать пару контуров (Cj н Cj), для которых коэффициент 
корреляции принимает максимальное значение. Однако максимальное значение коэф- 
фициента в ограниченной области noucka не гарантирует достоверности результата, 
поэтому необходимо использовать дополнительную информацию о взанмном распо- 
ложении контуров. Использование такой ннформацин позволяет выявлять ложные 
отождествления. 

В данной работе для проверки достоверностн отождествления были использованы 
расстояния между центрами тяжести контуров, при этом найденные пары контуров 
(CL. Ch) € (Сі, Ст) можно считать правильными, если 


ILia 7 т |< А, 


где Li, — расстояние между центрами тяжести контуров Ci u Or: Lj, — расстояние 


между центрами тяжести контуров Cj, н CR. 

Данная схема отождествления кривых не позволяет сравнивать прямолинейные 
отрезкн контура между собой, что, безусловно, является недостатком метода. Это 
связано с тем, что при сравнении любых двух отрезков коэффициент корреляцин 
будет принимать значення, близкие к еднинце. Такая особенность корреляцин функ- 
цин кривизны требует введення дополнительных условий фильтрации. Из множества 
контуров, выделенных на изображении. должны быть исключены все прямолинейные 
отрезки. 


Сравненне характерных точек контура. Пусть для контура C$ 
эталонного изображения каким лнбо способом найдено № особых точек, а для KOH- 


тура Cog из области понска найдено Non точек. При этом сама область понска Ci 
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содержит № контуроз. Тогда любой контур С" можно представить в виде функиин 
F'(l). приинмающей значения, отличные от нуля только B найденных характерных 
точках контура. Причем еслн при сравнении контуров используется только взанмное 
расположение точек, то значения функинн в особых точках можно положить равным 
единице (рис. 4.2.14). 


Рис. 4.2.14. Представление контура в ниде функции Ё (1) 


Необходимо для каждого контура С" эталонного изображения найти соответству- 


ющие контуры C'h из области понска. 

Для решения поставленной задачи используется процедура сравнения двух конту- 
ров, суть которой заключается в последовательном совмещении точки i контура Сэ 
(i 2 1,..., N3) и j точки контура Con (j = 1...., Non). При этом необходимо, чтобы 
выполнялось условне la < lon. 

В каждом фиксированном положенин определяется число соответствующих точек, 
для которых выполняется условне 


F3(l5 t Am) = Fon(l t Am) #0, 
As = irm -= l5, т = 1,....№ – і. 


В результате выполнения N операций сравнений контуров необходимо выбрать контур 
Соп. содержащий максимальное число соответствующих точек. Однако для сокраще- 
ння числа ложных отождествлений необходимо ограничить снизу максимальное число 
найденных соответствующих точек. Контуры C3 H Соп считаются соответствующими, 
если число найденных точек больше определенного порога Т. 

Данный способ сравнення является одним из самых быстрых н не требует вычис- 
лений дополнительных характеристик B точках, однако надежность такого алгоритма 
невысока. Неустойчивость работы алгоритма связана с тем, что для реальных данных 


Бъ + Ат) = (р + Ат + AEn) #0, 


где AE,, — величина погрешности, обусловленная днскретностью исходных данных 
к влияннем различных шумов. 

Альтернативным способом понска соответствующих точек на двух контурах явля- 
ется схема, при которой для сравнения используются не яркостные, а геометрические 
особенности объекта, н все характеристики вычисляются не по двумерной функцин 
нитенсивности (=, у), а по одномерной функции F(I). Алгоритм понска соответству- 
ющих точек состонт из трех основных этапов: 

1) выбор атрибутов; 

2) понск соответствующих точек в иногомерном пространстве признаков; 

3) проверка достоверности отождествления при помощи взаниного расположения 
точек на изображеннн.; 

В качестве атрибутов точек используются следующие характеристики: Mo. D, 
коэффициент асимметрии. Коэффиинент асимметрин вычисляется по формуле 


Мз 
а = v 


где М; — центральный момент третьего порядка. 
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В отличие от предыдущего метода, задача идентификации точек решается при по- 
мощи геометрического понска в многомериом пространстве признаков. Для указанных 
атрибутов мера сходства точек в пространстве признаков будет иметь BHA 


ВЫ 


$; = 
Jj 
Momax — Momin Dax — Dmin max 7 Gmin 
Понск соответствующих точек заключается в определении пары точек (i,j). i € Сэ, 
J Е Соп, для которой 5;; принимает наименьшее значение в области понска контура. 
Данный алгоритм отождествления точек является более надежным. Это связано 
с тем, что для проверки достоверности нспользовалось евклидово расстояние между 
точками. 


4.2.7. Оценка информативности изображений. При конструнрованин ANTO- 
ритмов сравнения изображений часто возникает задача выбора участков эталонного 
изображения с точки зрения их информативности. Критерием прн этом, естественно, 
являются показатели точностн и вероятности правильной привязки. Наиболее non- 
ным показателем информативности может служнть коэффнинент корреляции между 
эталонным (ЭИ) и текущим (ТИ) изображениями. 

На puc. 4.2.15 показано изображенне, на котором в виде уровня яркости NOKA- 
зан нормированный коэффициент корреляции, полученный при стереоотождествлении 


Рис. 4.2.15. Коэффициент корреляции как апостериориая оцеика информативиости: а — тестовое 
изображение (г. Каир), 6 — карта коэффициента корреляции 


стереопары города Каир (значения коэффициента от 0 до 1 преобразованы в 1H811830H 
пркостн от 0 до 255). При этом роль ТИ н ЭИ играют левое н правое изображения сте- 
реопары. Вилно, что коэффициент корреляции полностью отражает информативность 
нзображення. Участки с небольшой варнацней поля (пустыня, река) имеют низкий 
коэффициент корреляции. И наоборот, нанболее информативные участки (городская 
часть, дороги, берега реки) имеют высокий коэффициент корреляции. Недостаток это- 
го показателя B том, что он вычисляется как правило в процессе сравнения ТИ н ЭИ, 
в то время как показатель информативности должен вычисляться anpHOpHO, указы- 
вая на те участки эталонного изображения, которые будут иметь наиболее надежную 
метрику сходства. 

Эталонный участок может быть выбран в любом месте области перекрытия H306- 
ражений. Неудачный выбор эталона может существенно ухудшить результат меры 
сходства. Это бывает. если поместить эталон в области, загороженной на другом 
изображении, в области C линиями разрыва, в области C пернодической текстурой 
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или в области с низким уровнем сигнала (с низкой информативностью). Последний 
случай встречается нанболее часто. 

Задача выбора информативных участков для надежного H точного сопоставления 
изображений не получила к настоящему временн окончательного решения, хотя H 
достаточно исследована. Основная проблема здесь кроется в выборе оптимального 
сочетания противоречивых требований гибкого H адаптивного анализа ннформатив- 
ности H быстрых алгоритмов вычисления оценок. 

Рассмотрим известные показатели ннформативностн фрагмента изображення. 


Дисперсия сигнала. Точность привязки к эталонному изображению тем 
выше, чем более неоднородным являются соответствующие фрагменты изображения. 
Одинм H3 вычислительно простых H эффективных показателей неоднородности фраг- 
мента является дисперсия яркостн внутри фрагмента, которая определяется выраже- 
нием 


c? (то, ую, №) = TET p M) (f(x + zo. y + vo)? - 


y=- 
2 


3 Р x S usse | 


-T-Nyz-N 


где (го, уо) — точка изображения, для которой определяется ннформатнвность, N — 
выбранный размер окрестностн точкн (то, уо). 

Очевидно, чем выше дисперсия, тем более неоднородным является фрагмент. Та- 
ким образом, наиболее простая функция информативности фрагмента нмеет вид 


Inf(zo.yo. №) = 6(то, yo; М), 


Отношение сигнал / шум. Другим важным показателем ниформативностн 
является отношение снгнал шум (signal-to-noise ratio, SNR), которое определяется 
следующим образом: 

С»(то, у, N) 
би (то. уо. N) 
где о, — СКО сигнала, Cn — СКО шума на фрагменте. 

Смысл рассмотрения SNR в качестве показателя информативности фрагмента co- 
стоит в следующем. Если фрагмент однородный, то есть вариации снгнала в нем 
малы, то значение SNR тоже мало. Если на фрагменте присутствуют сильные kone- 
бакня яркости, то дисперсия сигнала, как видно из предыдущего пункта, большая, 
следовательно, н значение SNR большое. 

Для вычисления отношения снгнал/шум необходимо функцию яркостн фрагмента 
разделить на сигнальную часть и шумовую часть H вычислить HX статистические ха- 
рактернстнкн. Нанболее простой н эффективный метод вычисления СКО шума описан 
в [51] и заключается в следующем 

Предположим, что отсчеты изображения н шума статистически независимы. 

Обозначим fij — отсчеты исходного нзображення, то есть без влияния шумов, 
nij — отсчеты шума. Тогда, в предположении, что шум аддитивный, gij = fij + nij — 
отсчеты наблюдаемого изображения. 

Для статистических моментов справедливы следующие соотношення. По-прежнему 
предполагается, что центр фрагмента расположен в точке (го. уо), а размер фрагмента 
равен N. 


SNR (zo, yo, N) = 
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Средние значення: 
mg =ту+ ть, 


Дисперсия: 


o? = 05 + 02. 
Автокорреляционная функция: 
Co(z.y) = Cr(z.y) + Сыт,у). 
Еслн предположить, что шум белый, то 
Cs (z,y) = сяб(т.у). 


где 5(т,у) — дискретный аналог 6-функции 


0, |z| * ly] #0, 
1, z2y-0. 


5(т,у) = 


Такнм образом, автокорреляционная функция наблюдаемого изображения 
Со(т,у) = Cr(r. y) + 016 (т,у) 


отличается от автокорреляцнонной функцин исходного изображения только в иачале 
координат (= = у = 0), откуда 
02 = С,(0,0) — C, (0.0). 


Во всех остальных точках автокорреляционная функция наблюдаемого изображення 
f служит оценкой автокорреляционной функции исходного изображения g: 


Со(т,у) = Crim,y)  dm| * iyl #0. 


Используем эту оценку автокорреляционной функции исходного изображения при 
iz| + |y| 3 0 для нитерполяцни ее значення в точке х= = у = 0. Тогда оценка отношення 
сигнал/шум определяется как 


SNR = в T (4.2.12) 
Y o С,00,0) — Су(0.0) 


Точность оценки SNR зависит от точности интерполяции значения С; (0,0)) и Bbi 
борочной ошибки вычисления Су (=, y), зависящей от объема выборки. Co (r,y) вычнс- 
ляется следующим образом: 


м м 


, 1 : А 7 А 
Со(то о. Nity) = р 9^ У (і + 10.1 + yo)g(i + zo + mj +y + y)— 
(2N + 1) ETN jSCN 


— т(то, yo)m(zro + х,о + y). 


где 


N N 
1 l ! 
т(то, yo) = QN «i Y. Yt zoj +), 
i -Nj--N 
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N N 
1 А : 
т(то + zo +y) = — —; 9. У g(i t zo z,j ++). 
QNI US e et 


Поскольку для реальных изображений предположение о некоррелнрованности шу- 
ма не выполняется, то оценка SNR (4.2.12) получается завышенной. В результате це- 
лесообразно значение C,(0,0) получать не ннтерполяцней, а усреднением значеннй 
С,(0,0) по области 


Ма = ((z.y)| -d& x Sd, —d&z «d, |z| + |y| 0). 


Этот способ позволяет получать немного заниженную. но более правдоподобную оцен- 
ку отношеиня сигнал/шум. 

Данный показатель является мерой неоднородности: на более однородных фраг- 
ментах шум превалирует, поэтому отношение сигнал/шум меньше. Takum образом, 
функция информативности фрагмента здесь имеет вид 


Inf(zo. yo, N) = МК (хо, уо, №) 


Раднус корреляции сигнала. Раднус корреляции сигнала показывает, 
на каком расстоянии отсчеты сигнала можно считать статнстнчески независимыми. 
Чем более однородной является область изображення, тем больше для нее раднус кор- 
реляцин. Раднус корреляции в Точке изображения может быть вычислен с помощью 
автокорреляционной функцин, например, по формуле 


а 
Y С,(к.0) 


Ra(zo.yo, N) = ouo 


где d — размер апертуры для вычисления раднуса корреляции, C,(k,l) — авто- 
корреляционная функция фрагмента нзображення, которая вычисляется на областн 
{(К,1)| -d <k<d,l=0}; параметры ло, уо, № используются для вычисления авто- 
корреляционной функции. 

Радиус корреляции определяет ширину автокорреляцнонной функции вблизн ee 
максимума. Поэтому наличие шума на изображении искажает значенне радиуса kop- 
реляции. Автокорреляционная функция белого шума нмеет вид 5-функции, поэтому 
прн большом уровне шума раднус корреляции уменьшается н на однородных обла- 
стях изображения становится равным раднусу корреляции шума (раднус корреляцин 
белого шума = 0). Для устранения этого эффекта определение радиуса корреляции 
целесообразно изменить следующим образом 


а 
У) O€(k0)-4C(0.0) 
k= -d.kz0 


Ra(zo. yo, N) = C(0,0) 


X 


где C — интегрированное (осредненное) значение С, вблизи точки (0,0). 
Таким образом, функция 


Inf(zo,yo, №) = Ra(zo. yo. N) 


также является мерой информативности участков изображений. 
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4.2.8. *Субпиксельная корреляция. Предметом дальнейшего расмотрения яв- 

ляется ситуация, когда грубое решение задачи соответствия текущего н эталонного 

изображений уже получено применением нерархических корреляционных методов или 

методом, основанным на применении характерных черт, и требуется достичь предель- 

но возможной точностн совмещения. 

Исследованию данной задачи, вслед- 

ствие ее важности, посвящена обшнр- 

ная литература. Большинство извест- 

ных методов основаны либо на алго- 

ритме метода нанменьших квадратов ы 

[175], либо на использовании HopMa- 

лизованной взанмной корреляционной 

функции [56], [242], (273] 

Основу обсуждаемого ниже MeTo- ки 
да составляет использование норма- 
лизованной корреляционной функции 
в качестве меры сходства участков  |Lef Iaage 
двух изображений. Данная мера удоб- 
на тем, что она автоматнчески устра- Рис. 4.2.16. Обозначение систем координат в методе 
HAET яркостные различия двух H306- субпиксельной корреляции 
ражений, в то время как в алгоритме 
нанменьших квадратов [278] они вводятся явно, в качестве параметров моделн. 

Обозначим через f(x,y) распределение яркостей на участке левого изображення, 
который будет эталоном. Начало прямоугольной системы координат (X,Y) поместим 
в середину центрального пиксела эталона. Обозначим через g(zi,yi) распределение 
яркостей на участке правого нзображения, который соответствует эталону. Форма 
этого участка отличается от формы эталона по причине перспективных нскажений 
наблюдаемой сцены. Начало системы координат (r,,yj) поместим в центре участка 
правого изображения (рис. 4.2.16). 

Координаты (х,у) н (21,1) связань неизвестным преобразованием (4.2.13), где 
р — вектор параметров преобразовання (HarpuMep аффинных или др.): 


Tı = гі(2,у,р), (4.2.13) 
y yup). 


Вектор параметров р найдем путем максимизации меры сходства нзображеннй, за 
которую принимается функция нормализованной корреляции (4.2.14), 


YS Итлж(еьи) — М79 


(г.у) 
ME 2. (4.2.14) 
( E Pe - NP) PUE scan) =ne)” 
) 


(zy (7.9) 


В этой формуле знак L обозначает суммнрование по всем пикселам эталона; 
(z.y) 
У — количество пикселов. Средняя яркость находится по формулам 


= Уу): 9= ту senn) (4.2.15) 


N 
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Теперь задачу стеоеоотождествлеиия можно сформулировать следующим образом: 
найти вектор параметров преобразования нз условня 


p° = argmax К (р). (4.2.16) 
p 


Обсудим теперь путь решения сформулнровгнной задачн, основанный на ee лине- 
аризации. 

В дальнейшем для упрощения будем предполагать, что среднее значенне яркости 
эталона равно нулю — f = 0. При этом яркости всех пикселов эталона преобразуются 
следующни образом: 

f(z.y) ^ Лу) - 


Преобразование (4.2.13) учитывает изменение m участка текущего нзображе- 
ния, соответствующего эталону. В качестве этого преобразования могут быть выбра- 
ны различные модели с большим количеством параметров. Однако следует учесть, 
что субинксельная точность оценивания может быть достнгнута н в случае простых 
моделей искажений, тогда как нспользованне сложных н гибких моделей, например 
полиномнальных, приводит в последствии к большим вычислительным затратам н 
проблемам сходимости процедур оценки модельных параметров. Поэтому будем, как 
в [278], нспользовать в качестве (4.2.13) аффинное преобразование вида 


Tı =а, + а2х + азу, 
yı = bı + бог + зу, (4.2.17) 
которое обладает достаточной гибкостью H, как правило, приводит к хорошим резуль- 
татам. 
Таким образом. для решення задачн (4.2.16) необходнмо найтн вектор параметров 


= [ai 02 a3bı bz bl. 


Примем начальное приближение вектора параметров в виде [a° 10 b* 0 1]7, которое 
можно найти с помощью классического корреляционного метода. Обозначим 0° (т, у) 
распределение яркости на участке правого нзображення, положение которого зада- 
ется начальным вектором параметров. Лннеаризуем нензвестную функцию 9(т1,/1) 
относительно д" (х, у\ по параметрам преобразования (4.2.17). В форме приращений 
(4.2.17) имеет вид 

Az, = Aa, + r^a? + уЛаз, 

Ayı = Abi + zAb + ЛЬ (4.2.18) 


Линеаризация 9(т1,у1) дает 


g(z1,y1) = 9*(т,у) + 


9g e 29 Ar, " em 99 CV Ay (4.2.19) 


Для краткости B дальнейшем B выражениях Buda g'(r.y), f(z.y) н T. A. аргументы 
(x.y) опускаются. Обозначим также 


Из (4.2.18) и (4.2.19) имеем 


g(zxi.gi) = g' + 9:Аси + gzzAa2 + 9: удаз + 9, Ab — gy zÀb,  g,yAb = g ^p, 
(4.2.20) 
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где т 
E = [4° 9; 19: V9: 9, 29у 09). 


Ap! = [1 Да, Даз Даз ЛЬ Abz ДЫ]. (4.2.21) 


Производные функции g(z,y) вычисляются с помощью их дискретных апирокси- 
маций 

gz(r,y) = 0,5(9(т + 1, y) - g(x — 1. y)) — лля внутренних точек изображення; 

g.(z.y) = g(x + 1, y) — 9(г,у) — на левом краю изображения; 

gr (1.y) = g(z,y) ~ g(x — 1, y) — na правом краю изображення. 

Аналогичные формулы применяются для координаты у. 

Выражение (4.2.15) для среднего значення яркостн участка правого изображения 
нмеет вид 


22001 
бе Y g'Ap = g'Ap. (4.2.22) 
(г.у) 
Подставнм (4.2.21), (4.2.22) в выражение для коэффнинента корреляции (4.2.14): 
ГАР 
K(Ap)= —— ÁE (4.2.23) 
(E f)" (Y; ap'gg'ap – Nap'gg'ap) ^ 
(zy) (х,у) 


Тогда исходная задача (4.2.16) сведется к задаче 


Др” = argmax К (Ap). (4.2.24) 


= Y 


(2.у) 


Дисперсия яркости эталона 


является константой. Поэтому задача (4.2.24) после равносильных преобразований 


К’(Ар) = (ND;K(Ap)? 


имеет вид 
Ap'( У f) 3- Ј8")ар Ap'AAp 
К'(Ар) = AP(Y ват - Мар = Ap Bip. (4.2.25) 
Ty 
Окончательно, задача (4.2.16) принимает вид 
Др = arg max К"(Др), (4.2.26) 
rae В — матрица размером 7x7, r= У) fg! — вектор размерности 7, В = 
= У) gg! – Ng” — матрица размером mx 


(г.у) 

Матрица В — сниметрическая н положительно определенная. Последнее следует 
нз того, что знаменатель формулы (4.2.25) есть величниа, пропорциональная диспер- 
син яркостн участка правого изображення. Для резльных изображений матрицу В 
можно считать невырожденной. 
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Из матричной алгебры известно [166], что задача максимизации отношения квад- 
ратичных форм 


x' Ax 

x'Bx 
где X — вектор нензвестных параметров, сводится к эквивалентной задаче на обоб- 
щенные собственные значения 


— max, (4.2.27) 


Ax = ABx. (4.2.28) 


Это легко показать, векторно продифференцировав no X обе частн выражения 
(4.2.27): 


a хТАх Е (x'Bx)Ax – ‘хТАх)Вх _ Ах-ЛВх _ 0 
ах \хТВх/ — ix T Bx)? о xIBx ` 


Takum образом, решением задачи (4.2.27) будет собственный вектор, отвечающий 
максимальному собственному значению в задаче (4.2.28). 

Рассмотрнм теперь решение эквивалентной задачн методом Холецкого [166]. 

В основе такого решения лежит вспомогательная лемма. подробное доказательство 
которой приводится в [263]. 

Из доказательства леммы следует эффективный метод нахождения собственного 
вектора X, отвечающего единственному ненулевому собственному значению задачн 
(4.2.28), а именно, вектор х можно найти как решение системы линейных уравнений 


которая может быть решена методом Холецкого, требующим примерно n?/3 + 2n? 
операций. 

Последовательность действий при использовании этого метода COCTOHT в следую- 
щем. 

1) Получаем разложение матрицы В = LL' . 

Обозначим В = ||6;;|, L = |l; |l. 

Тогда 

k 1 
lek = (bkk — У м, к= 1,....п, 


р=і 


к-1 
bik — У. bipbkp 
за 1 . 
к, i=k+tl nn. 

lkk 

Этот шаг требует примерно n?/3 операций. 
2) Решаем систему Вх = г, т.е. последовательно решаем две системы уравнений 

с треугольными матрицами: 


Ту =r, L'x-y. 


Этот шаг требует примерно 2n? операций. 

Решеннем задачн (4.2.26) является любой вектор вида «Ap, где Ар — найденный 
вектор поправок, х — константа, которая управляет сходнмостью метода. Поэтому 
является естественным выбирать такое х, которое при данном векторе Ар максимн- 
зирует коэффициент корреляцин (4.2.14), т. e. задача принимает вид 


К(«Ар) ~ тах. (4.2.29) 
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Умножение вектора параметров на константу соответствует изменению масштаба 
нсходного преобразования (4.2.13). В качестве преобразования (4.2.13) используется 
следующее, зависящее от одного параметра a: 


тг = Qr. p) y2 = ау (T.y, p), 
которое в форме приращений имеет вид 
Ат = тА, у = у Ла. 


Обратимся вновь к линеаризованному выражению для g(r2.y2) (4.2.20): 


g(z2,y2)  g i.i) + (g&(ri i)m + уб, yi)yi)Ae = gla, 


1 = | gig) 
‚ а = : 
A« gri + бул 
Преобразованная задача максимизации коэффициента корреляции нмеет BHA, ана- 
логичный (4.2.26): 


v (x fea) (х гар P 
K" (^a) = (х,у) (zw) _ X Аха (4.2.30) 


Baa 
a D m мык) « 
ry 


где 


х = 


Ах = argmax K"(Aq«), где 


' ONS b b 
Ах =r rI, Га = fei = n , В. = g gl = Ng gr = |? 12 | 
« x! a « 2. « T) а 2 «ba «бд bia bá 


По nemme решение (4.2.29) имеет вид 


e -1 1 rib — r2bi2 : 
х = = В, ra= —r : 4.2.31 
Bl ~ S babaz — bfz ps = ind l | 


Такнм образом, решение задачи нахождения максимума коэффициента корреляции 
сводится к двум шагам: 

1) нахождение вектора параметров Ap аффинного преобразования (4.2.17), опреде- 
ляющего направление в 6-MepHoM пространстве параметров; 

2) нахожденне оптимального шага «Ap (4.2.31) вдоль этого вектора. 
Коэффициент корреляции, соответствующий найденному вектору поправок парамет- 
ров Др, находится по формуле (4.2.30): 


| T 
к(ар) = үт. 


Аналогично, коэффициент корреляции, соответствующий найденному вектору «х, Ha- 


ходится По формуле 
Ар) =. /71 7208, 
K(Ap) V NER T 
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Поскольку исходная задача (4.2.14) была нелинейной, ee финальное решение на- 
ходится последовательными итерациями. На каждой итерации решается линеаризо- 
ванная задача и определяется очередное приближение положения максимума коэф- 
фициента корреляции. Начальным приближением является функция д“, определяемая 
начальным вектором параметров, который находится одним из методов грубого сте- 
реоотождествления. На т-й итерации сначала находится вектор поправок аффинного 
преобразования ДоДр, и) и уточняется само преобразование (из (4.2.18)): 


Ty =т+ Ал, 
и =y + Ау. 


Это преобразование дает смещенне центра участка правого изображения. На сле- 
дующей итерацин это смещение является новым началом прямоугольной системы 
координат (x,y). Так как новая система координат может быть сдвинута на нецелое 
число пикселов, то для вычисления производных при линеаризации яркость в точ- 
ках с нецелыми координатами получается при помощи билинейной интерполяции по 
значениям яркости в соседних точках с целыми координатами. 

Процесс прекращается при достижении заданного количества итераций или когда 
абсолютные значения поправок к параметрам сдвига становятся меньше заданных 
констант: 

| Аа: т) - Да! (т-1 | < С. 


[Abi Abi 1| < C5. 


Результаты использования метода субпиксельной корреляции иллюстрируются мно- 
гочисленными вычислительными экспериментами (рис. 4.2.17-4.2.19). 

На рис. 4.2.17-4.2.18 показаны траекторин сходимости восьми начальных прибли- 
жений. Показаны два случая: близкое (d — 2) и далекое (d = 4) начальное приближе- 
ние. На рис. 4.2.19 показан пример ложной сходимости некоторых траекторий. Тол- 
стым штрихом показан пиксел, найденный классическим корреляцнонным алгорит- 
MOM, от которого отсчитывались начальные приближения. Вид этих траекторий Ha- 
глядно демонстрирует более быструю сходимость метода с выбором шага оптимизации 
(рис. 4.2.18, 4.2.196). 

Метод субпиксельной корреляции может также применяться с учетом предвари- 
тельной сегментации изображений, в частности, в модели стереоотождествления. 


Co 


t 

' 

Н 
, ' 
, О 
Н , 
H 4 
4 1 
Н Н 
t t 
t Н 
, ' 
t t 


Puc. 4.2.17. Траектории сходимости различных начальных приближений d = 2 
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Рис. 4.2.18. Траектории сходимости различных начальных приближений d 
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Рис.4.2.19. Случай ложиой скодимостн некоторых траекторий d ~ 5 


Дальнейшим развитием ндей корреляци- 


Морфологическая корреляция. 


4.2.9 


36]. Суть этого подхода заключается 


жения с использованием эталонов является морфологический проекци- 
предложенный IO. П. Пытьевым [ 


$c 
Gg 
эх 
T q 
Фо 
orc 
о = 
[un 
о 2 
= х 
= = 
со 


анства f с LX, где 


Пусть изображения являются элементами гильбертова простр 


X — поле зрения 
между изображениями 


в следующем. 


ЧЛЕ и расстоянни 


где норма понимается как 


Тогда можно говорить о норме изображения 


равном ||f1 — fall. 


> может быть поставлено в соответствие 


gEL 


Далее, пусть задано некоторое выпуклое и замкиутое подмножество изображений 
Тогда любому изображенню 


Ze Lz. 
изображение fuia Є 2 такое, что 


lig — fminl| = ши {9 — fll. f € 2}. 
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Оказывается, такое отображение v(g) : д — 2 всегда будет проектором, в том (алгеб- 
раическом) смысле, что v(t(g)) = v(g). Введем обозначение fmin = Prz(g), T. e. «foin 
есть проекция g на 4». 

Используя введенное понятие проекции. можно определить численную меру бли- 
зости изображения g к множеству изображений Z. а именно, функцию K(g,Z) 
(морфологический коэффициент корреляции), аналогичную обычной корреляцион- 
ной мере близости двух изображений: 


Р 
K(g,Z) - | zol, 


Морфологический коэффициеит корреляцин обладает следующими свойствами: 
110<К(9,2)<1, geLX, 2є1Х; 

2) (K(g, Z) =1) € (9Е 2). 

Преимущества морфологического коэффициента корреляции связаны с возможно- 
стью более полного учета условий регистрации изображений. Пусть процесс peru- 
страции изображения описывается при помощи некоторого преобразования т Е Т »ra- 
лонного изображения f(z,y) € LY, где Т — некоторая группа преобразований. Onpe- 
делим результат регистрации (форму) изображения f как Z = { f’ = т(Ј),тє T). To- 
гда, используя морфологический коэффициент корреляции Кт(9,{) = К (g, Z), можно 
сравнивать изображение с эталоном инварнантно к любым преобразованиям группы 


Рассмотрим, например, общую модель яркостных преобразований изображения. 
Пусть эталонное изображение f является двумерной функцией интенсивности внда 


еу) = xy. X-uA. 


где А; — непересекающиеся области, на которые разбито поле зрения X, x; — индн- 
каторная функция 1-й области разбиения кадра, т. e. 


0, (г,у) € Ai, 
1, (т, y) Е А;, 


Xi (х,у) = 


а; — уровень яркости і-й области. 
Мпожество изображений «той же формы» имеет BHA: 


2={Г/(т,у) = 2 jb y)). 


Тогда проекционное преобразование можно считать параметрическим вида 
b, - blai), 


rae i = 0,....C — 1, a C — количество уровней яркостн Ha нзображении. 
Для любого изображения g(r,y) проекция Ргу(9) определяется в этом случае 
набором параметров b вида 


Л] 9(z. Xs (zy) dz dy 
CA M 


bi = ~=, 
f [Xilzv)dzdy 
X 
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Вычисление этих параметров не сопряжено с трудностями и сколько-нибудь зна- 
чительными вычислительными затратами. После вычисления проекции изображения 
g на форму эталона f коэффициент морфологической корреляцин К (g, f) вычисляется 
непосредственно. 

По аналогии с обычпым корреляционным обнаружением, морфологическое обна- 
ружение изображения f по принципу максимума корреляцнонного коэффициента ocy- 
ществляется по правнлу 


j = агв тах Ку (9, fi). 


После этого на основании полученного значения максимальной корреляции может 
проверяться достоверность классификации. 

Если К7-(9, fi) 2 Кии, то обнаружение признается достоверным. В противном cay- 
чае объект считается нераспознанным. ! 

Обладая робастностью по отношению к радиометрическим преобразованиям и за- 
шумлениям, морфологические алгоритмы обнаружения не обеспечивают в то же время 
необходимой робастности при геометрических искажениях. Это связано с их унасле- 
дованным от корреляционных алгоритмов свойством сильного уменьшения корреляци- 
онной связи, если площадные структуры эталона и текущего изображения начинают 
заметно различаться. 

Морфологический подход к обнаружению порождает новую трудность — необходи- 
мость параллельного анализа так называемой информативности изображепия. Иными 
словами, для адекватного использования морфологического коррелятора нужно сле- 
дить, чтобы яркостно-геометрические свойства изображений были достаточно «бога- 
тыми». По этим же причинам уровень аномальных ошибок морфологического koppe- 
лятора может превосходить соответствующие показатели обычных корреляционных 
алгоритмов. 

Обсудим теперь соотиошения между классической корреляционной мерой сходства 
и ее морфологическим аналогом. 

Введенное выше понятие «формы» (по Пытьеву) значительно обогащает радиомет- 
рические свойства «эталонного» изображения, давая возможность строить более ро- 
бастные алгоритмы обнаружения. При этом может быть достигнута инвариантность 
процесса обнаружения к условиям perHCTpauHH, то есть к изменениям характери- 
стик сенсорных устройств или условиям освещения. Корреляцнонная схема обнаруже- 
ния предполагает вычисление взаимной корреляционной функции между полученным 
изображением объекта иего «эталонным» изображением, в то время как морфологиче- 
ский коэффициент корреляции есть мера сходства полученного изображения объекта 
с его наилучшим изображением (проекцией) на множестве эталонных изображений. 

Рассмотрим множество функций-изображений, иитегрируемых на поле зрения X 
CO скалярным произведением 


(А9) = / J f(E, yr, y) ёсу 
X 


н нормой 
ТАБ 


Следуя фасеточной модели Харалика [181], [272]. удобно снова рассмотреть разбиение 
поля зрения Х на негересекающиеся области А, такие, что 


ЈА; = Х; АПА; = Oii Ji-l...,m. 
t 
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где m — количество областей, и представить произвольную функцию яркости H306- 
раження в виде 


fizy) = Уеа, у)х, (2.0), 


где Х;(2.у) есть индикаторная функция множества À,. 
Без значительного ограничения общиости эталонное изображение f можно пред- 
ставить как такое разбиение X на А;, что с; = const в пределах области Ai, 


т 


fizu) =$ axils), (4.2.32) 


и тогда ero фоома V (f) получается как множество таких f. для которых с; — произ- 
вольные числа: 


V(f) = И :/= oxi € 59) . 
i=l 


В этом случае проекция произвольного изображения 9 на V(f) есть просто отрезок 
ряда Фурье no базисным функциям хиит.у) 


т 


Ру = 2 Te и), (4.2.33) 


где p = [xi ||? = (xi. xi) есть мера (площадь) области A,. 


Рис. 4.2.20. Разнина между иормированиой взаимно корреляцяоиной фуикцией и коэффициентом 
морфологической корреляции 


Теперь можно проанализировать соотношение между обычной нормированной вза- 
имно корреляционной функцией K, 


‹/.9) 
K, = ———— 
ЛІ 
и коэффициентом морфологической корреляции А» 
Пу 
Кы = — 
1911. 


Геометрическую разницу между этими двумя величинами нллюстрирует puc. 4.2.20, 
где обозначено х = arccos Ки, В = arccos Km. 
Отметим очевидные свойства коэффициента морфологической корреляции. 
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1)O < Km < 1, что следует из свойств проектора. 

2) Коэффициент морфологической корреляции не зависит от преобразования ярко- 
сти F(f(z.y)). так как преобразование яркости влияет только на яркости отдельных 
областей разбиения эталона, HO не на саму геометрию разбиения и, следовательно, 
F(f(x.y)) не «выходить из формы V(f). 

3) Ат 2 |К.|. 

Докажем последнее утверждение. Рассмотрим «эталонное» изображение f в форме 
(4.2.32) и сравним К2 и К2. Необходимо доказать, что 


2 
O si (4.2.34) 
[И] 


Принимая во внимание (4.2.32) и (4.2.33), перепишем (4.2.34) в виде 


IP; (9)? - 


2 


35 y for Е Y (92) 24 


iz1 imi [E 
Это иеравейство может быть получено из известного неравенства Коши-Буняковского 


т т n 2 


У E- Eaa] o0. 


11 1—1 i=l 


если положить 


D 
2 nm m 


$25, «[Ya [Ys]. 


Таким образом, при принятых выше допущениях коэффициеит морфологической кор- 
реляцин, как правило, превышает норму взаимной корреляционной функции текущего 
и эталонного изображений. 


4.2.10. Литература для самостоятельного изучения. Kuura (Красовский, Be- 
логлазов, Чигин) [26] содержит изложение классической теорни корреляционно- 
экстремального анализа двумерных полей, с которой мы рекомендуем обязательно 
ознакомиться в рамках углублепного курса. 

Оригинальный подход к взаимной привязке изображений на основе так называе- 
мой беспоисковой корреляции изложен в кииге (Acmanoe, Васильев, Заложнев) |3]. 
Этот подход больше применим в области корреляционного слежения, чем в областн 
сравнения произвольных изображений, но сн привлекателен возможностью эффек- 
тивной программной и аппаратно-программной реализации. 

B кииге (Шапиро, Стокман) [19] методам сопоставления изображений и объектов 
в двумерном пространстве посвящена глава 11. Здесь представляют интерес геометри- 
ческие аспекты проблемы, которым в нашем изложении уделялось меньше внимания. 
Главы 12 и 13 посвящены восприятию трехмерных сцен. Их также можно рекомендо- 
вать для самостоятельного изучения, хотя изложение того же круга вопросов в книге 
[14] нам кажется более полным и удачным. 

В книге (Форсайт, Понс) [44] непосредственно задаче стереостождествлеиня no- 
священ небольшой раздел «бинокулярное совмещение изображений», который при 
этом содержит ряд интересных идей, отсутствующих в нашем изложении, B частно- 
сти, описано стереоотождествление методом динамического программирования и ряд 
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других методов. В широком смысле задаче реконструкции трехмерной пространствен- 
ной информации по набору двумерных нзображеннй посвящена вся часть Ш данной 
книги, включающая главы 10 «Геометрия нескольких проекций», 11 «Стереозренне», 
12 «Определение аффинной структуры по движению» и 13 «Определение апроектив- 
ной структуры по движению». Рассматриваемые здесь вопросы связаны с построением 
различных метрических и проективных соотношений между точками изображений и 
точками сцены, расчетом хода лучей н т. п. Эти вопросы не включены нами в данный 
учебный курс, поскольку они ближе к фотограмметрической области, чем к области 
обработки и анализа изображений, однако в рамках углубленного курса машинного 
зрения такие элементы следует признать необходнмымн. В связи C этим мы рекомен- 
nyeM всю Ш часть книги |44] для углубленного самостоятельного изучения. 
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на плоскости // Радиотехника и Электроинка. 1972. № 4. [56] 

19) Abbasi-Dezfould M., Freeman T.G. Stereo-Image Registration Based of Uniform Patches, 
Internatlonal Archives of PEotogrammetry and Remote Sensing. V. XXXI. Part B2. Vienna, 1996. 
[273] 


43 КОНТРОЛЬНЫЕ ВОПРОСЫ И ЗАДАЧИ 261 


20) Schenk. Automatic Generatlon of DEM's, Digital Photogrammetry: Ап Addentum to 
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4.3. Контрольные вопросы и задачи 


К раздели 4.1. 

I) Каковы основные этапы (уровни) обработки H анализа изображений? Что такое 
«характерные черты» и зачем их выделять? Какне типы «характерных черт» вы знаете? 
Каковы основные атрибуты различных тнпов характерных черт н критерин их выбора 
для использования в задачах анализа изображений? 

2) Какие типы детекторов точечных особенностей на изображениях вы знаете? Как 
работает модифицированный снгма-фнльтр? 

З) Какие детекторы угловых точек вы знаете? На каких принципах они основаны? 

4) Какие известные системы моментных инварнантов используются для описания 
характерных точек полутонового изображения? Почему эти признаки называются «HH- 
варнантамн»? 

5) В чем состоит задача прослеживания контуров на бинарном нзображеини? Чем 
отличаются отслежнвающие алгоритмы прослеживания контуров от сканирующих? 

6) В чем состоит задача выделения лниеаментов? Как она решается? 

7) Какие способы описания контуров вы знаете? 

8) Как осуществляется кодирование контуров в алгоритмах нх обхода? 

9) Какими математическими моделями могут аппроксимнроваться контуры? 

10) Как и зачем выделяются особые точки на контурах? 

П) Почему задачи выделення контуров H областей являются двойственными? To- 
чему OHH, тем не менее, решаются различными способами, H решение одной задачи 
не всегда дает удовлетворительное решение другой? 

12) Что такое «связная область» на изображении? Какие типы связности рассмат- 
риваются в задачах анализа нзображеннӣ? 

13) Задача. Сколько связных областей нмеется на данном бинарном изображении: 


а} относительно 8-связности; 

6} относительно 4-связности? 

14) Какие алгоритмы выделения связных областей вы знаете? Чем метод «лесного 
пожара» отличается от двухпроходного алгоритма? 
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15) Задача. На каком из приведенных ниже нзображеннй однопроходный алгоритм 
выделения связных областей даст тот же результат, что и двухпроходный? 


«Ж 


16) Что понимается под задачей сегментации полутоновых изображений на обла- 
стн? Какне способы решення этой задачи вы знасте? Чем отличаются методы слияння- 
разбнения от методов гистограммной сегментации? Что такое «дерево квадрантов», и 
для чего оно применяется? 

17) Какие способы описання выделенных областей вы знаете? Чем они отличаются 
H какне особенности изображения характеризуют? 

18) Что такое «текстура»? Приведите примеры текстур. Какие признаки позволяют 
описывать текстуры? 


К разделу 4.2: 

19) Что поннмается под задачей сравнения изображений? Что понимается под зада- 
чей привязки изображений (matching)? Что понимается под задачей стереоотождеств- 
лення точек или фрагментов двух изображений стереопары? Как соотпосятся между 
собой этн задачи? 

20) Какие проблемы возникают при стереоотождествленин н каковы основные пу- 
тн их решения? 

~ 21) Дайте постановку задачи корреляцнонного стереоотождествления. 

22) Что такое нормированная корреляция фрагментов двух изображений? 

23) Для чего при корреляцнонном стереоотождествлении использустся пирамида 
нзображений? 

24) Каковы методы сопоставлен“ точечных особенностей? 

25) Кгковы методы сопоставления контурћых особенностей (линий, лннеаментов)? 

26) Почему оценка информативности изображения важна при его анализе корре- 
ляцнокными методами? Что такое радиус корреляции H как он характеризует инфор- 
мативность изображения? Какие другие способы оценки локальной информативности 
вы знаете? 

27) В чем состоит задача субпиксельной корреляции? Каковы основные принципы 
ее решения? 

28) Как вычисляется пытьевский морфологический коэффициент корреляции? В 
чем его преимущества н недостатки при нспользовании в задаче привязки изображе- 
ний H стереоотождествлення? Как он связан с обычным нормированным коэффици: 
ентом корреляции? 
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4.4. ПРАКТИЧЕСКИЕ ЗАНЯТИЯ по теме «Анализ изображений» 


4.4.1. Выделение и анализ связных областей. Для работы со связными областями 
в снстеме Pisoft предназначены фреймы из закладки «Связность» палитры фреймов. 

Схема bin label (рис. 4.4.1) даст возможность нсследовать связные областни H 
вычислять некоторые признакн полученных областей. Фреймом Binary (закладка 


мт p 


LJ 
Cw ii hene ^ ———— | omme 3 | cn ÀÀ — 7 — — s 0 m ml 


Рис. 4.4.1. Поиск связных областей изображений. Окна изображений слевг направо: 1) исходное 
изображение; 2) бинаризовапиое изображение Ha выходе фрейма Mono; 3) меточное изображение, 
полученное на выходе фрейма Label: 4) таблица вычисленных признаков связных областей 


«Алгебра») бинаризугм исходное полутоновое изображенне, а фреймом Mono (заклад- 
ка «Алгебра») превратнм бииарпое нзображенне в полутоновое домпоженнем яркостей 
ноль и единица на 255. Данная процедура более подробно описана в практических 
занятнях третьей главы в подразделе «Моделнрование шумов». На вход фрейма ана. 
лиза связных областей Label (закладка «Связность») подадим полученное бинарное 
нзображенне. В меню фрейма Label определим, что будет нанесено на меточное нзоб- 
раженне — границы HIH области. Поскольку стоит задача выделения областей, Bbl- 
берем пункт меню «Области». Зададим яркостные характеристики фона (черный или 
белый), на котором ищем области, относящиеся к объектам. На рассматриваемом 
нзображеннн объекты (лейкоциты) являются чернымн, а фон — белый. Поэтому в 
меню фрейма Label выберем пункт «Фон: белый». Также определнм THN связиостн. 
по которому будем оценивать прннадлежность пикселов к области. Можно выбрать 
4-связность (соседство лнкселов только по горизонтали H вертикални) или 8-связность 
(сзязным является любой соседний пиксел no горизонталн, вертикали н двум AKATO- 
налям). Меточное (ирнзнаковое) изображение — крайнее справа. Признаки (в даниом 
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случае площади объектов H координаты центров тяжестн), вычисленные для каж 
дой найденной областн, занесены в таблицу фрейма СопАп (закладка «Связность») 


Рис. 4.4.2. Меню фрейма СопАп анализа Рис. 4.4.3. Окно диалога выбора областей 
связных областей и вычислення призиаков по площади при вызове пуикта меню «Выбор 
областей по площади» во фрейме СопАп 


Данный фрейм позволяет осуществлять выбор областей по площади (puc. 4.4.2) 
Диапазон нитересующих площадей можно задать в окне дналога «Площадь областей, 
(рис. 4.4.3) при вызове пункта меню «Выбор по площади». Выделенне в таблице кла 
вишей мыши строки с набором признаков ннтересующей областн выделяет заданнык 
цветом соответствующую область Hà меточном изображении. 

Схема, представленная на рис. 4.4.4, аналогична схеме bin label (puc. 4.4.1) c roi 
разницей, что фрейм Label применяется для провязывання контуров объектов (пунк: 
меню «Границы». 

Фрейм анализа геометрических признаков границ связных областей (CFeat, 
принимает на вход бинарное изображение и список областей н формирует на выходе 
набор скаляров, характеризующий геомеТрические признаки соответствующей грани 
цы связной области. Для каждой области вычисляются следующие признаки: 

— размеры минимального описанного прямоугольника, орнентированного, Kal 
эквивалентный эллипс (ТХ, ТҮ). Стороны прямоугольника определяются путем на 
хождения проекций контурных точек образа на собственные векторы матрицы pacce 
нвання Е: 


Su So (r.y)eT'a 


Собственные числа матрицы E: 


i 520 + 502 + (S20 — S02)? 


+ 5112 
2 4 11 


— периметр минимального описанного прямоугольника: 


P=2. (TX + ТҮ); 
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Рис. 4.4.4. Анализ коптурсв. Вычисление признаков. Окиа изображений слева направо: 1) исходное 
изображение; 2) бниаризоваивое изображение иа выходе фрейма Mono; 3) меточное изображение 
“pannu областей. получениое па выходе фрейма Label: 4) изображение границы области. которую 
лометили указателем мыши в таблице; 5) таблица вычислениых признаков сиязиых областей 


= площадь минимального описанного прямоугольника: 
Р= (ТХ .ТҮ): 
— формат связной области: 


^. 


ac 


— компактность связной областн: 


где So — площадь связной областн; 
— формат описанного прямоугольника: 


TX 
F, = а 
TY 
— отношение площадей описанного прямоугольника и связной области: 


Z = —; 


5 
So 
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— отношение квадрата периметра описанного прямоугольника к его площади: 
2 
р 
#2 = —. 
2$ 

Меню фрейма Cfeat показано на puc. 4.4.5. 

Выделенне в таблице «Связные областнь клавишей мыши строки с набором при- 
знаков интересующей границы областн. выделяет заданным цветом соответствующую 
область H8 меточном изображении H также отображает границу областн в отдельном 
меточном изображении (правое нижнее окно на рис. 4.4.4). 


Рис. 4.4.5. Meno фрей- Рис. 4.4.6. Таблица вычисленных признаков фрейма CFeal анализа 
ма СЕеаі анализа Геомет- геомегрических признаков границ связных областей отображена B 
рических призиаков Граииц разделе выходные параметры в таблице системной информации о 
связных областей фрейме 


Численные значения вычисленных признаков сведены в таблицу (рис. 4.4.6), на- 
ходящуюся в разделе «Выходные параметры» (внизу справа) системной информации 
о фрейме (управляющая кнопка el»). 


4.4.2. Сегементация полутоновых нзображений. Для знакомства с метода- 
ми сегментации полутоновых изображений на однородные областн в системе Pisofl 
используется фрейм Relax, находяшийся в закладке ePisofl 8.0» палитры фреймов. 
В данном фрейме реализованы две возможности сегментации изображения — одно- 
кратная по гистограмме (рис. 4.4.7) н итеративиая путем релаксации критерия одно- 
родности (рис. 4.4.8). Этим возможностям соответствуют два пункта меню данного 
фрейма. 

Спектр разделимости — это описанная в разделе 4.1 функция автоматической 
мультипороговой пресегментации на основе «спектра разделимости» гистограммы (мо- 
дифицированного критерия Otsu). Эта процедура осуществляет разбиение гистограм- 
мы цифрового изображения па области, соответствующие ее выражеиным модам. Ал- 
горитм основан на определении локального порога Otsu в «скользящем» окне и на- 
копленин результатов порогового разбиения в аккумуляторе. Для этого предусмотреи 


ПРАКТИЧЕСКИЕ ЗАНЯТИЯ ПО ТЕМЕ «АНАЛИЗ ИЗОБРАЖЕНИЙ. 
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Рис. 4.4.7. Сегмеитгция изображения при помощи спектра разделимости 
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Рис. 4.4.8. Сегментация изображенья при помощи процедуры релаксации 
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дналог ввода мнннмальной (Мин. Размер) н максимальной (Max. Размер) шнрины 
«скользящего» окна н шага (Шаг) нзменення этой шнрины. Как правило, целесооб- 
разно задавать велнчнну минимальной ширнны окна равной ожндаемой минимальной 
шнрине детектируемой моды. 

Яркостная сегментация — это алгоритм релаксацконной сегментации, включаю- 
щий в себя спектр разделимости в качестве исходного приближення (нулевой нтера- 
ции) н алгоритм релаксационной сегментацни. Алгоритм релаксационной сегмента- 
цин позволяет удалять случайные областн на изображенин. Для этого в скользящем 
окне WinX x WinY стронтся локальная гистограмма LocHist[k., при nomou которой 


вычисляется ранг 


MaxV . 100 
Rang = —————, 


Sum 


где МахУ= max(LocHist[k]), Sum — общее колнчество элементов в окне. Решение о 
поглощении цеитрального пнксела окна пркинмается по критерию 


Rang > Crt, 


rne Crt — численный параметр, задаваемый anpHoplio в процентах. Итерацин прекра- 
щаются, когда на очередной итерации не было изменено значение нн одного пиксела, 
или количество таких изменений пе превышает заданного числового порога (параметр 
YCA. вых). 


4.4.3. Корреляция. Выделение особых точек. Фрейи RCorr, находящийся в 
группе фреймов «Писофт 8.0», позволяет корреляциониыми методами производить 
слежение 
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Puc. 4.4.9. Слежение за выделениой оператором областью. Ha изображеини справа находится выде- 
лениая область 
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зг выбранным объектом. На вход данного фрейма нмест смысл подавать видеопоток 
‹Эрейм Avilmp) или последовательность изображений (пупкт «Пакетный импорт» B 
меню фрейма |т Import загрузки изображения), т. к. слежение за объектом пред- 
полагает наличне на каждом кадре объекта, за которым производится слежение на 


V ————  «— „м 


taij О рн | бн ерні Пао $ ненна очи фон | на аа) A < В баш | а) Пані Петя «| 


Puc. 4.4.10, Слежение за выделенной оператсром областью. Покадровое чтение видео» 
тозледовательности 


фоне изменяющейся сцены. Оператор выделяет прямоугольгую область. в которой 
иаходнтся объект, задавая нажатием левой клавиши мыши левый верхний и Npa- 
вый нижний углы прямоугольника, обрамляющего объект (рис. 4.4.9). B появившем- 
ся окне диалога «Параметры коррелятора» устанавливаются размеры области, OTCTO- 
ящей от сторон прямоугольника на расстояние Delta X по горизоитали н Delta, Y 
по вертикали. Внутри данной областн на каждом следуюшем кадре последователь- 
ности производится поиск заданной области (в нашем случае — номера вагона). На 
рис. 4.4.10 показано, как с помощью фрейма Avilmp организовать нужную обработку 
вндеопотока. Для нашего примера слежения за областью достаточно последовательно 
получать кадры загруженного видеофайла. 


ГЛАВА 5 


ОБНАРУЖЕНИЕ И ИДЕНТИФИКАЦИЯ ОБЪЕКТОВ 


Данная глава посвящена обнаружению H идентификации объектов на основе моделей. 
В зарубежной литературе для обозначения этого класса задач часто используется 
специальный термин «зрение на основе моделей». В изложенни этой темы мы будем 
постепенно двигаться от простого к сложному: от плоских моделей к трехмерным, от 
детерминированных к вероятностным. Однако прежде чем перейтн непосредственно к 
рассмотрению способов построения H нспользования моделей в анализе изображений, 
необходимо хотя бы коротко коснуться собственно задачн моделирования предмет- 
ной области. 

Каким образом н на каком основании в определенной технической задаче Bbl- 
бираются Te илн нные способы базовогс описания действительности? Естественно, 
это творческий момент, находящийся в ведении каждого конкретного разработчи- 
ка каждой конкретной системы. Однако на самом общем уровне в качестве двух 
«крайних» полюсов здесь можно указать два основных принципиально различных 
подхода: имитационное (физическое) моделирование и абстрактное (яркостно- 
геометрическое) моделирование. 

Имитационное моделированне в областн машинного зрения предполагает попытку 
описать некоторый реальный физический объект H реальное физическое устройство 
(канал) получения изображення этого объекта. Соответствующие моделн perHCTpa- 
цин данных обеспечивают учет физических свойств объектов и регистрируемого H3- 
лучення, характеристик н положения источников освещения, атмосферных и другнх 
условий регистрацин, конструкцин, матернала H различных нендеальностей (дистор- 
сий) оптической схемы, чувствительности н шумов регистрирующих датчиков, KOH- 
кретных видов шумов н искажений, возникающих в каналах передачи информацни 
H T. д. ит. п. Прекмуществом такого подхода является полнота и достоверность pe- 
зультатов моделирования, а также гэрантированное качество методов анализа изоб- 
ражений, основанных Hà нинтацнонных Модеяях. Недостатки нмитацконного подхо- 
да связаны с непропорцконально большнми трудозатратамн на этапе обследования 
(составления модели), а также C тем, что во многих практических случаях собрать 
необходимое количество экспернментальных данных для построения нмитацнонной 
модели формнровання образов просто не представляется возможным. 

Абстрактное моделирование, напротнв, нсходнт из самых общих соображений о 
природе анализируемых объектов н способе ux регистрации. Более того, C точки зре- 
ния абстрактного моделнровання анализ изображений имеет дело с изображениями 
и преобразованиями изображений, а не с теми физическими сущностями, которые 
стоят за ними. Такой подход в литературе нногда называется иконическим (от сло- 
ва иконика) |51]. Пренмущества нконического подхода заключаются B том, что при 
разработке методов анализа изображений требуется минимум апркорной информации 
о реальной снтуацни наблюдения. Основной недостаток абстрактного моделирования 
определяется высокой вероятностью того, что метод, разработанный для слншком 
общей модели, при практическом примененнн окажется либо вообще неработоспо- 
собным, либо существенно менее эффективным, чем методы, созданные на основе 
конкретных моделей, спецнфически присущих только данной конкретной задаче. 

На практнке оба этих подхода редко встречаются в чистом внде. Как правило, раз- 
работчики отталкиваются от достаточно общих абстрактных моделей, которые затем 
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постепенно конкретизируются н адапткруются к имеющимся реальным данным, тем 
самым в той или нной степенн приближаясь к имнтационным моделям. В то же время 
необходимо учитывать, что однн H те же методы н модели B зависимостн от области 
применения могут переходить нз класса имитационных моделей в класс абстрактных, 
и наоборот. Например, использование преобразования Фурье и гармонического анали- 
за в задачах обработки волновых сигналов и периодических процессов можно отнестн 
к технике имитационного моделирования, но использование того же гармонического 
анализа в задачах обработки изображений, природа которых не имеет ничего общего 
с волнами и гармоннками, является уже техникой абстрактного моделнрования. 

Отметим также, что хотя далее будут пренмущественно рассматриваться геометри- 
ческне модели объектов на изображениях, HX яркостные, цветовые, текстурные и/нлн 
радиометрические свойства также играют в процессе обнаружения H идентификации 
самую существенную роль. 


5.1. Основные классы математических моделей, используемые в анализе 
изображений 


Цель данного подраздела — дать читателю наиболее общее систематнческое представ- 
ление о чрезвычайно щироком поле махематического моделирования данных, связан- 
ных C изображениями. Поэтому рассматриваемые здесь понятия и идеи характернзу- 
ются чрезвычайно кратко и описываются достаточно лаконично. скупо и формально. 
Гораздо более подробное рассмотрение большинства упоминаемых методов и моделей 
будет дано далее в других подразделах данной и следующей главы, 


5.1.1. Изображение как функция векториого аргумента. Как правило, исход- 
ным описанием изображения на практике является двумерная функция интенсивно- 
сти f. В таком случае 


F” = (f(zy...2,): X) € P — Z() СЕ}, 


где К — множество действительных чисел; P" — пространство скалярных функ- 
ций л-мерного аргумента; X(f) — область определения векторного аргумента x = 
= (zy... za); Z(f) — область значения функции. При п = 2 можно говорить о тра: 


диционных двумерных изображениях Г(т,у). 

Многие методы анализа изображений, в которых изображения рассматриваются 
как двумерные функции. предполагают, что F? является гильбертовым простран- 
ством, то есть определены понятия сложения H умножения функций, умножения 
функции на число, скалярного пронзведения функций, нормы функции, линейного 
пространства, линейного подпространства, базиса подпространства н т. д. ит. п. Все 
эти понятия позволяют перенести в область анализа изображений все известные ме- 
тоды и результаты из области линейной алгебры и векторных пространств [51]. 
Также часто предполагается, что изображення-функцин являются необходимое число 
раз непрерывно интегрируемыми и дифференцируемыми. Это позволяет перенести в 
область анализа изображений все известные методы и результаты из области функ- 
ционального анализа [57]. 

Функциональное представление изображений также естественным образом обоб- 
щается на случай т-компонентной векторной функции п-мерного аргумента 


х) = Кл... 10): X(f) C R^ — Z(f) C R", 


причем векторные функции также могут рассматриваться как элементы гильбертова 
пространства. Важным частным случаем векторных изображений являются цветные 
изображения (т = 3), описанные в одной из стандартных цветовых кодировок: ВСВ, 
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СМУ, YUV, YCbCr, HSV ит. п. При этом геометрия цветового пространства имеет 
ряд важных свойств, связанных с особенностями зрительного восприятия человека, 
которые существенно отличаются от обычных свойств многомерного пространства, 
описываемых евклидовой метрикой [19]. 

Векторные изображения также могут порождаться при съемке одной и той же сце- 
ны датчиками различной физической природы (электромагнитнымн, акустическими 
и др.) или набором датчиков, осуществляющих регистрацию электромагнитного из- 
лучения различных длин волн (видимый, инфракрасный, ультрафнолетовый диапазо- 
пы). Такая съемка называется иногозональной, многоспектральной или даже гипер- 
спектральной (если используется большое количество узких диапазонов длин волн). 
Векторные изображения также порождаются искусственно — в результате выделения 
локальных признаков, когда каждый пиксел изображения описывается набором из т 
признаков. 

Заметим также, что вектор пространственных параметров изображения х не 
всегда представляет собой набор компонент декартовых прямоугольных координат. Во 
многих системах получения и анализа изображений используются другие типы про- 
странственных координат, например, полярные координаты азимут-дальность илн 
кодирование узлов шестиугольной решетки, обладающей лучшими топологически- 
ми свойствами по сравнению с прямоугольной решеткой, узлы которой отстоят друг 
от друга на неравные расстояння. 

Более широким обобщением функционального представления изображений явля- 
ются наборы или ансамбли изображений 


F(x) = Ui(zis s zn)hizi.p : Xf) cm- Zi) с RIS 


Отличне ансамбля изображений от векторного изображения заключается B TOM, 
Что хотя все изображения набора соответствуют одной и той же видимой сцене (на- 
блюдаемому объекту или процессу), попиксельное соответствие одноименных эле- 
ментов различных функций ансамбля, имеющнх одннаковые значения аргумента, не 
предполагается. Можно считать, что векторные изображения, в которых такое попик- 
сельное соответствие имеется, являются частным случаем ансамблей изображений. 
Типичными ансамблями нзображений являются стереоизображения, получаемые в 
результате съемки одной и той же статической сцены несколькнми камерами, име- 
ющнми различное пространственное положенне, и видеопоследовательности, no- 
лучаемые в результате съемки в разлнчные моменты времени некоторой дннамнче- 
ски изменяющейся сцены. Одноименные пикселы разлнчных изображений ансамбля 
в общем случае могут соответствовать различным пространственным или времен- 
ным элементам наблюдаемой сцены. Вследствие этого одной из первичных задач 
анализа ансамблей нзображеннй является задача отождествления (matching) тех 
элементов (фрагментов) различных изображений ансамбля, которые соответствуют 
одним н тем же элементам сцены наблюдения. Конечной задачей анализа ансамбля 
изображений, как правило, является реконструкция пространственной (30) нли 
пространственно-временной (40) информации с сцене наблюдения. 

Ниже, если иное дополнительно не оговаривается, мы будем предполагать, что 
рассматривается F? — пространство полутоковых двумерных изображений. 


5.1.2. Изображение как совокупность точек. Пусть изображение f(x) представ- 
ляет собой т-комлонентную векторную функцню п-мерного аргумента 


Қх) = Кл... £n) : X(f) E R" — Z(f) C R". 
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Такая функция всегда может быть эквивалентным образом представлена как би- 
нарное отношение 


В(р): X(f) x Z(f) — {0,1}, 


где (n + т)-мерный информационный вектор p = (x, 2), x € X, z € 2 содержит пол- 
ный набор сведений как о геометрических, так и о яркостных характеристнках эле- 
мента (пиксела) нзображения (х). Иными словамн, опнсывая изображение бинарным 
отношением B(p), мы тем самым рассматриваем его не как функцню (отображенне 
множества Х на множество 2), а как совокупность точек (п + т)-мерного простран- 
ства X x Z: 


В = (p: B(p) = 1}. 
Простейший случай такого представления — бинарное изображение 


b(x) : X — (0,1), 


являющееся одновременно и бннарной функцией (Z € (0,1)), и бннарным отношени- 

ем, в котором информацнонный вектор содержит только пространственные коорди- 

наты, а соответствующее множество Точек В называется точечным паттерном (dot 

pattern). Анализ пространственных конфигураций, образуемых бинарными точечнымн 

паттернами, — одна из старейших классических задач анализа изображений. 
Другим частным случаем здесь является график функции изображения 


В({(х)) = {р = (x.2:x€ X, 2€Z, f(x) = 2}. 


В полутоновом случае часто используется также тень (umbra) изображения [16] 


В(/(х)) = {р = (х, 2): xe X, ze R, f(x) > 2}. 


Для бинарного изображения, очевидно, график и тень совпадают с самим изобра- 
женнем. 

Представление изображения в виде множества точек позволяет определить для 
изображений операции объединения, пересечения, дополнения и отношение включе- 
ния, тем самым распространяя на область анализа изображений методы и результаты 
из областн теории множеств [58]. 


5.1.3. Изображение как топологический объект. Пусть теперь множество 
X x (в частном случае — только пространство X) является топологическим про- 
странством [10], то есть для точек данного множества определены понятия окрест- 
ности и соседства. Тогда изображение, представленное в качестве совокупностн 
точек (точечного паттерна), может быть рассмотрено как топологический объект, 
T. €. опнсано в терминах топологических элементов: связных областей, границ об- 
ластей, связных линий и изолированных точек. Соответственно могут быть опре- 
делены топологические меры сходства и топологические преобразования, сохра- 
ияющие или определенным образом изменяющие топологическив свойства (число 
и соотношение топологических элементов) изображения. Таким образом, представле- 
ние нзображения в виде списка нли множества точек позволяет также перенестн в 
область анализа изображений методы и результаты из области топологии. В частно- 
сти, теория покрытий, будучи перенесена в область анализа дискретных бинарных, а 
затем и полутоновых изображений (рассматрнваемых как «TeHH»), прнвела к созданию 
математической морфологии Серра [240]. 
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Если к тому же множество X х 2 (в частном случае — только пространство X) aB- 
ляется метрическим пространством, то есть для любых двух информационных век- 
торов может быть определена функция расстояния между ними, удовлетворяющая 
известным аксиомам, то на списки точек изображения автоматически распространя- 
ются также все методы кластерного анализа [23]. Заметим, что методы кластерного 
анализа по-своему также анализируют топологию объектов многомериого простран- 
ства. Впрочем, для пространств низкой размерности они зачастую оказываются в 
значительной степени избыточными. 


5.1.4. Изображение как геометрический объект. После того как на множе- 
ствах точек мы ввели топологию H MeTpHKy, остался всего один шаг до TOTO, YTO- 
бы рассматривать изображения как геометрические объекты. Исторически анализ 
изображений, безусловно, восходит к такой области математики, как геометрия — 
первая созданная человечеством наука, предназначенная для описания и получения 
пространственной информации, предметом изучения которой являются контурные 
или заполненные геометрические фигуры. Исходно под геометрическими фигура- 
ми понимались такие фигуры (замкнутые или разомкнутые линин), которые могут 
быть построены «при помощи циркуля и линейки», то есть состоят из конечного мно- 
жества прямолинейных отрезков и дуг окружностей. Впоследствии, с развитием 
аналитической геометрии, под геометрическими фигурамн в широком смысле стали 
понимать любые множества точек, представимые уравнениями или неравенствами 
(системами уравнений и неравенств) в некотором координатном пространстве. 

Из области аналитической геометрии анализ изображений заимствует следующие 
основные элементы: 

e геометрические преобразования изображений, свойства этих преобразований; 

e парамвтрическов описанив множеств точек B координатном пространстве; 

• геометрическая логика (сведения из планиметрии и стереометрии, правила 
геометрического вывода); 

e способы построения и отыскания фигур. 

Геометрические преобразования. Регулярные преобразования координатного 
геометрического пространства (сдвиг, масштаб, поворот, аффинное и проективное 
преобразования) позволяют описать TÈ условия регистрации изображений объектов 
н сцен, которые наблюдаются в различных прЯктических задачах. Как известно, ал- 
гебраичвский подход [10] позволяет обобщить все частные виды преобразований 
понятием группы преобразований. Назовем преобразованием множества f) любое 
отображение 

TRR. 


Группой T называется такое множество преобразований, что VA €Q: 
Ito ЕТ :то(А) = А: Ут, с ЕТ: т(о0(А)) = o(1(A)); 


УтЕТ Эт"! eT:s(«^! (A) = t^! («(A)) = A. 


C учетом понятия группы преобразований легко дать математическую фориули- 
ровку задачи инвариантного обнаружения некоторой фигуры на изображении, под- 
вергающемся в ходе регистрации яркостно-геометрическим преобразованиям из Т. 
Пусть дан эталон В н наблюдается изображение А. Тогда требуется найтн такие na- 
раметры преобразования т, которые обеспечивают максимальное сходство наблюдения 
A с преобразованным образом т(В), например, 


1(B) : |А - 1(B)|| ^ min(x € T). 
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Заметим, Что такая постановка задачи не является, вообще говоря, Чем-то новым 
даже для древнегреческих геометров. Примером задач ннвариаитного обнаружения 
являются, в частности, классические задачи на построение подобных фигур, предпо- 
лагающие инвариантность метода построения к сдвигу, повороту и масштабу. 

Параметрические описания. Поскольку благодаря координатному подходу все 
геометрические преобразования в аналитической геометрии являются параметризо- 
ванными, причем размерность вектора параметров п соответствует Числу степеней 
свободы преобразования, всегда можно определить параметрическое описание мно- 
жества преобразований Л = А", взаимно однозначно связанное с группой преобразо- 
ваний Изображения 


Т ++ А = Е". 


Рассмотрим классическое определение геометрической фигуры, например, окруж- 
ности: «Окружность это множество точек плоскости, находящихся на одинаковом 
(фиксированном) расстоянии от некоторой фиксированной точки, называемой центром 
окружности». То есть геометрическая фигура есть множество точек, на которые на- 
ложены некоторые условия. Так, описание окружности B декартовых координатах 
г.у) имеет вид 


O(zo.yo,r) = { (х,у) : (£ — хо)? + (y – у)? = r°}, 


где (х,у) — координаты точки, (хо,уо,т; — три свободных параметра уравнения 
окружности. При этом между параметрами аналитических уравнений (неравенств) 
и рассмотренными только что параметрами групп геометрических преобразований 
имеется естественная и очевидная связь. Например, изменения параметров (хо, уо) 
приводят к плоскопараллельному сдвигу окружностн, а измененне параметра т — к 
изменению ее масштаба. Значит, параметры уравнения окружности О(А) параметри- 
зуют группу преобразований эталонного образа, включающую сдвиг H масштабнро- 
вание плоскости изображения À = (то, уо, т). Соответственно, задача поиска (построе- 
ния) окружности по задаиным точкам сводится задаче оценки нанболее достоверных 
параметров А. 

Геометрическая логика. В классическом труде Евклида геометрия представлена 
в виде некоторой базы знаний, включающей определения (первичные модели объ- 
ектов). постулаты (априорные знания об объектах и их свойствах) и творемы или 
задачи (целевые утверждения), которые требуется соответственно доказать или по- 
строить, используя некоторый стандартный механнзм логического вывода. Именно 
эту схему получения знаний из изображений воспроизводят сегодня системы логиче- 
ского программирования [59], [60], включая системы геометрического вывода. За- 
дачам «на построение» при этом соответствуют задачи обнаружения, а задачам «на 
доказательство» — задачи распознавания (верифнкацин илн идентификации) объек- 
тов (см. Д. Пойа «Математическое открытие» [61]). При этом множество исходных 
моделей, априорных утверждений н правил вывода образуют в каждой конкретной 
логической системе анализа изображений некоторую специальную геометрическую 
логику, в общем случае принимающую форму пространственно-временной логики 
анализа сцены. Кроме того, во всех современных системах машинного Зрения в явной 
или опосредованной форме всегда используются собственно геометрические сведения 
и соотношения, почерпнутые из планиметрии, стереометрии, проективной геомет- 
рии и других разделов геометрической наукн. 

Способы построения и отыскания фигур. Рассмотрим известный Евклиду ме- 
тод общих геометрических мест на примере задачи построения окружности по 
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трем заданным точкам. Заметим, что выше мы уже показали, что задача построения 
окружности есть задача реконструкции неизвестного параметрического описания 
À = (то, ю,г) no наблюдаемому образу, который в данном случае представлен MHO- 
жеством точек А = (p, = (zi gi). P2 = (12, у2), P3 = (тз,уз)}. Решение этой задачи 
методом общих геометрических мест заключается в следующем. Проведем середин- 
ный перпендикуляр Liz к отрезку (р. р). Данная линия является геометрическим 
местом (то есть множеством положеннй) центров всех возможных окружностей, про- 
ходящих через точки p, и р». Независимо от этого, проведем также серединный 
перпендикуляр Loa к отрезку (р2,рз). Данная линия также является геометрическим 
местом (то есть множеством положений) центров всех возможных окружностей, про- 
ходящих через точки рг H рз соответственно. Искомая часть решения (центр искомой 
окружности) находится как точка пересечения двух 3THX геометрических мест: 


Ро = (10,0) = Li2 П Las. 
Оставшаяся часть решения (раднус окружности) определяется как 


т = ||po — Pill. 


B терминах современной обработки изображений рассмотренный способ решения 
задачи на построение окружности есть пример процедуры голосования пар точек 
изображения в пространство параметров, описывающих положение искомого объ- 
екта, Методы голосования принято описывать в терминах, восходящих к лреобра- 
зованию Хафа (Hough Transform, HT), предназначенному для обнаружения прямых 
линий [188]. Позже Баллард [123], [124] и Дэвис [140], [142], [143], [146], [147], 
[148] развили технику голосования не только на случай обнаружения любых анали- 
тических кривых. но и на случай обнаружения объектов произвольной формы (T. H. 
«обобщенное преобразование Хафа», GHT). Эта современная модульная схема ana- 
лиза изображения, предполагающая голосование точек изображения в простран- 
ство параметров и последуюший анализ аккумулятора. является непосредствен- 
ным обобщением классического метода общих геометрических мест на случай избы- 
точных, противоречивых, неточных данных. Более того, метод общих геометри- 
ческих мест уже содержит указание На. такие способы достижения вычислительной 
эффективности процедур голосования как нездвисимое голосование свидетельств. 
а также декомпозиция вектора параметров [62]. 

С учетом вышеизложенного анализ изображений на основе моделей можно рас- 
сматривать как некую «обобщенную геометрию», отличия которой от классической 
геометрии заключаются в следующем. 

Яркостно-геометрические аспекты. Здесь отличия по сравнению с классической 
геометрией заключаются в переходе от непрерывиых точек, линий и поверхностей 
к дискретным линиям, областям и объемам; переносе фокуса внимания C простых 
и «правильных» фигур на сложные иеаналитические формы: налични y рассматри- 
ваемых геометрических объектов дополнительных негеометрических характеристик 
(интенсивность, цвет и т. п.). 

Логико-вероятностные аспекты. В классической геометрии никогда не рассмат- 
риваются ложные, помеховые или неточные данные. В связи с этим классическая 
проблема обоскования получаемых выводов и решений также получает в анализе 
нзображений более широкое толкование. Обоснование решения может быть и строго 
логическим, ко гораздо чаще оно является вероятностным или нечетким. 

Вычислительные аспекты. Древнегреческие математикн рассматривали вычис- 
лительный базис (циркуль и линейку) как непременную часть постановки геомет- 
рической задачи. Специфика современных задач анализа изображений определяется 
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Е foe o А 
необходимостью учитывать конкретную архитектуру, объем памяти и быстродействие 
заданного вычислителя при указанных ограничениях на этн параметры. 


5.1.5. Изображение как совокупность независимых признаков. Доведем до 
конца идею представлення изображения как совокупности независимых информа- 
тивных элементов. При этом перейдем от рассматривавшегося выше произвольного 
множества информативных элементов (геометрических точек, информационных век- 
торов) к более жесткой структуре — упорядоченному набору (массиву) информатив- 
ных элементов заданного размера, то есть к вектору признаков. 

Назовем признаком результат любой однозначной функцни, которая ставит в соот- 
ветствне изображению некоторое численное значение. Пусть даны множество образов 
f? и множество признаков (скаляров) V. Набором признаков назовем вектор 


КА) = (Л(4),...,Л.(А)) € v^, 


где AEQ, U^ — пространство признаков; п — количество признаков в наборе 
или размерность пространства признаков. Соответствующую операцию признакового 
описания образа можно определить как отображение 


паҹ" 


Заметим, что распространенным частным случаем признакового описания изоб- 
ражения является его естественное взанмнооднозначное описание вектором всех 
пиксельных значений. В таком случае эталонное признаковое описание элементар- 
но трактуется как набор эталонных изображений объекта. Заметим также, что 
трансформационные и параметрические описания ЛЕ R” также представляют со- 
бой частный случай векторов признаков, однозначно параметризующих модельное 
множество образов. 

Важными понятиями, рассматриваемыми в связи с признаковыми описаниями 
изображений, являются инварнантность (устойчивость к преобразованиям), робаст- 
ность (устойчивость к искажениям), ннформативность (избирательность на множе- 
стве образов), способность к локализации и ряд других [287]. 

Перейдем теперь от рассмотрения описаний, состоящих из независимых элементов 
(признаков, параметров), к описаниям, на элементы которых накладываются опреде- 
ленные связи, то есть к структурным моделям. 


5.1.6. Изображение как структура. Структурные модели изображений позволя- 
ют перенести в область анализа изображений все известные методы и результаты из 
областн анализа структур [22], которая, впрочем, сама создавалась под значитель- 
ным влиянием задач из области геометрии и аналнза изображений. В самом деле, 
вспомним типовое определение простой геометрической фигуры: «множество точек. 
удовлетворяющих следующему условию (набору условий)...». В то же время из про- 
стых фигур (иапример, из отрезков) формируются составные фигуры (треугольники. 
прямоугольники, трапецин, ...). Определение такой составной фигуры имеет anano- 
ГИЧНЫЙ BHA: «множество отрезков, удовлетворяющих следующему набору условий, 
накладываемых на связи (отношения) между ними...» причем в качестве характери- 
стик отношений между отрезками используются элементы геометрической логики — 
параллельность, колннеарность, соседство, перпендикулярность и т. д. Заменяя KOH- 
кретные слова «точки» И «отрезки» на обобщающий термин «элементы заданного 
типа», получим общее определение структурной модели: «множество элементов за- 
данных типов, удовлетворяющих набору условий, описывающих связи (отношения 
элементов) заданных типов». 
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Формализуем понятие структурной MoJlenW. Упорядоченный набор образов 
А=(А1, A2,..., An) С Q” назовем полным структурным описанием образа А, если 
образ АЕ Я может быть полностью однозначно реконструирован путем объединения 
злементов из А: 


А=АФА2Ф...ФА,, 


где Ф — операция объединения образов из €), на которую в общем случае не наклады: 
вается никаких дополнительных условий, кроме того, что замкнуто относнтельно 
©. Необходимо отметить, что типичный для изображения эффект загораживания 
одних объектов другими, в отлнчие от многих других областей приложения струк- 
турного аналнза. делает принципиальным порядок объединения (наложения B поле 
зрения) элементов вндимой сцены. Поэтому операция Ө в общем случае не может 
быть ни симметричной, HH ассоциатнвной, хотя иногда такое ограничение все же 
накладывается. 

Рассмотрим теперь, как на базе структурных описаний строятся модели объектов. 
Пусть прообраз Г, состонт из п составляющих 


[= 1 ®[2$...® Ln, 


причем известны типы элементов, задаваемые характеристическнми предикатами 
типа элементов М; (Ён) є (0,1), i 5 1,...,n. Пусть, кроме того, заданы т условий 
или предикатов связи M*(L) Е {0,1}, Е = 1....,m. Тогда модель прообраза прини: 
мает вид 


M(L) = M: (Lı): ...: М.) МЦЬ - ... M"(L). 
Рассмотрим нанболее популярные тнпы таких моделей. 


5.1.7. Алгебра изображений. В предложенной Риттером [285] алгебре изобра- 
жений для структурного представления образов вместо уннверсальной операцин Ф 
нспользуется V — коммутативная H ассоциативная операция универсальной редук- 
ции илн объединения образов, образУющая. на Q полугруппу, ноль которой совпадает 
с «нулевым образом» Ø: 


А= А; УАУ... УА. 


При зтом N является пространством функций, а V нмеет смысл максимума, миниму" 
ма, суммы или произведения образующих. Важным свойством такого представления 
является инвариантность данной структуры к группам преобразований, действуюшим 
на Q, поскольку 


УтЕТ :т(А) = (Ai) V 1(A3) У... V 1(Aq). 


В рамках такой структуры удобно ставить н решать задачи структурной сегмен- 
тации и интерполяции изображений. 

Ортогональные разложения. Гармонический анализ. Такне методы, как преоб- 
разование Фурье, вейвлет-преобразования и другне основанны на линейных разложе- 
ниях изображений (функиий) по различным системам ортогональных образующих. 
Роль образующих здесь нграют базисные функиин разложення. Операиня объедине- 
ния образующих представляет собой нх линейную комбинацию 


f(z.)-7 Усе Ма, 


51 ОСНОВНЫЕ КЛАССЫ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ 279 
КЕ E Sr Gan Е аа аы НЫ 


где fi(r,y) — 1-я базисная функция разложения; a; — соответствующий i-i коэффи- 
циент разложения. Коэффициенты линейных разложений часто используются в каче- 
стве векторов признаков н спектральных характеристик при исследовании, сжатин 
н обработке изображений. 

Математическая морфология Пытьева. Пусть изображения являются элемен- 
TAMH гильбертова пространства изображений 0 ~ L?. Тогда можно говорить о нор- 
ме изображения ||A|| н расстоянии между изображениямн, равном || А — В||. Далее, 
пусть задано некоторое выпуклое и замкнутое подпространство изображений M ЕП. 
Тогда любому изображению А Є 0 иожет быть поставлено в соответствие нзображе- 
нне 7, € М, такое, что 


IIL — All = min(l|B — All, Be M}. 


Легко убедиться, что такое отображение ф(А) : А — М всегда будет проектором в 
том (алгебранческом) смысле, что ф(ф(А)) = (A). Поэтому можно также обозначить 
L = Pr(A. M), т.е. «L есть проекция А на M». 

Используя введенное понятие проекцин, можно определить численную меру блн- 
зости изображения к множеству изображений K (A, M) (морфологический коэффи- 
циент корреляции) вида 
ПРъєа, м)! 

| all 


обладающую следующими практически полезными свойствами: 

l))O« K(AM)«1, AEQ, MENR; 

2) К(А, Л) =16Ає М. 

3) K(A, M) = 0 © Рг(А, М) = е. 

Пренмущества морфологического коэффициента корреляции связаны с возможно- 
стью более полного учета условий регистрации изображений, Пусть процесс peru- 
страции изображения описывается при помощн некоторой группы преобразований Г 
эталонного нзображения g(z, y) Е Q. Определим форму изображения g как 


M(g) = ((9) : € T). 


Тогда npu помощи KT(f.g) = K(f. M) можно сравнивать изображение с эталоном 
ниварнантно к любым преобразованиям типа Т. Пусть, например, эталонное изобра- 
жение f является кусочно-постоянной двумерной функцией интенснвностн вида 


К(А,М) = 


, 


И(т,у) = Ука) 


где Xi — индикаторная функция і-й областн разбиения кадра, а а; — цвет закраски 
і-й областн. Множество изображений той же формы имеет вид 


М = ьс: (bis. nbn) € n]. 


Тогда проекционное преобразование можно считать параметрическим вида b, = b(a,), 
где i —1,...,n — количество уровней яркости на нзображенин. Соответственно для 
любого изображения g(r,y) проекция Pr(g, f) определяется набором параметров b: 


m olz Kiley dady ii 


0 ffxi(s.ndady 
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Таким образом, в морфологическом подходе Пытьева проективные операторы HC- 
пользуются для сравнения изображений между собой, a также для сравнения изоб- 
ражений с обобщенными моделями (формами). Данный подход позволяет сравни- 
вать между собой H модели, устанавливая между HHNH отношения «более простой/ 
более сложный по форме». 

Математическая морфология Серра. В отличие от морфологии Пытьева н 
рассмотренных ранее линейных разложений по системам ортогональных функций, 
предложенная Серра н Матероном популярная н эффективная парадигма fanann- 
за изображений, получившая название математической морфологии изображений 
(ММ), основана на нелинейных операторах, традиционно описываемых в теоретнко- 
множественном формализме. Морфологическим фильтром в смысле Серра называет- 
ся такой оператор, который (а) является алгебранческим проектором н (6) сохраняет 
теоретнко-множественное отношение включення. Математическая морфология Сер- 
ра использует два основных морфологических фильтра — открытие н закрытие, 
которые, в свою очередь, всегда могут быть представлены последовательной комби- 
нацией двух этапов анализа изображения при помощи двух других базовых морфо- 
логических операторов: расширения н сжатия. Роль образующих здесь нграет набор 
структурирующих элементов, которые обычно порождаются H3 некоторого базового 
структурирующего элемента прн помощн группы преобразований. Например, прн 
помощи группы сдвигов можно определить следующую операцию морфологического 
открытня изображения Л no структурирующему элементу В: 


O(A, B) = md у), 


где B(z,y) — образ В, сдвинутый (транслированный) на вектор (т,у). Легко убедить- 
ся, что открытие является морфологическим проектором 


O(A. B) = O(O(A. B), B). 


Данный оператор ниварнантен к сдвнгу. Кроме того, данный оператор проекиин 
является монотонным в том смысле, что’ V А, B : О(А,В) С A. 


5.1.8. Графовые представления моделей. Задача индексации графа. Описание 
любой структурной модели всегда можно представить в виде соответствующего AM- 
рибутированного реляционного гиперграфа h = (V.G), такого, что множество его 
вершин У совпадает с множеством элементов модели V, атрибуты вершин равны 
атрибутам соответствующих элементов (a(vi)); euneppeópa g” соединяют подмноже- 
ства элементов 5(49^) С У, если множество элементов (vi) Е 5(9"), характеризуемых 
соответствующими атрибутамн (a(vi)). может быть связано отношением 9“, причем 
каждое гнперребро гиперграфа g'* характеризуется соответствующим атрибутом (чет- 
ким илн нечетким предикатом) отношения, равным р’. 

Назовем свободной моделью структурный граф №(У), вершины которого помече- 
ны не конкретными элементами, а типами элементов, а гнперребра — соответствен- 
но не конкретными отношениями, а типами отношений. Под индексацией свобод- 
ной модели объекта на множестве злементов А будем понимать такое отображение 
I:A + V, что получаемый в результате гнперграф Т(А) является реализацией сво- 
бодной модели Т(У) в том смысле, что все вершины Т(У) оказываются связаны с 
подходящимн по типу элементамн H3 А H при этом все отношения между 3THMH 
элементами, соответствующие гиперребрам T(V), также удовлетворяются. 

Таким образом, задача обнаружения (распознавания) объекта на изображении по 
его структурной модели сводится к задаче индексации соответствующего графа на 
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множестве элементов изображения. В зависимостн от того, какова структура модель- 
ного графа, задача индексации будет решаться тем или иным классом алгоритмов 
[63]. 


5.1.9. Порождающие грамматики. Структурно-лингвистический подход.. На- 
зовем алфавитом множество образующих 


X= {Xin Xn} СЯ. 


Грамматическим высказыванием (предложением) назовем любую упорядочен- 
ную последовательность элементов алфавита произвольной конечной длины k: 


Y 2 (Yi... Y): И € X, Y. € X. 


Множество всех возможных высказываний в алфавите X обозначим через M(X). 
Введем операцию подстановки «—^», замещающую одну заданную последователь- 
ность символов на другую: 


A > B: A,B € M(X). 
"-— o 


При помощи этой операцик можно записатьаравило вывода R, замещающее неко: 
торую последовательность символов на некоторую другую последовательность B лю: 
бом высказывании, в котором она встретилась: 


R(A — B),A,B € M(X) > Y Y, Y; € M(X) : R((Y,, A, Y2) ^ (Yi, B. Y2)). 


Алфавит X, набор правил вывода В н множество исходных высказываний (по- 
стулатов) 9 ЕМ(Х) вместе определяют грамматику Г = (X, R,O). Высказывание Y 
называется правильным высказыванием в рамках грамматики Г, если в Ө существу- 
ет такой постулат, последовательно применяя к которому правила нз К. можно на 
некотором шаге вывода получить (вывести) высказывание У. Выводимость Y в Г 
обозначается 


У - Г. 


Множество всех утверждений, выводнмых в Г (множество всех правильных выска: 
зываний данной грамматики), обозначим как М(Г) = {Ү:Ү < Г). Его также можно 
описать предикатом M(Y,T) = (Y < Г}. 

Помимо описанных простых грамматнк, могут также рассматриваться н контекст- 
ные грамматики, в которых правила подстановки зависят от контекста (окружаю- 
щих высказываний). Это повышает гибкость модельного описання, HO не меняет сути 
структурно-лингвистического подхода [45]. 

Можно показать. что любой четкой структурно-лингвистической модели может 
быть поставлена в соответствие четкая реляционная (графовая) модель, н наоборот. 
Однако в случае работы с нечеткимн H вероятностнымн моделями алгоритмы индек- 
сации графов нам представляются более предпочтнтельнымн. 


5.1.10. Изображение как двумериая проекция трехмерной сцены. Qomo- 
грамметрический подход [29], рассматривающий отдельные изображення и ансамбли 
изображений как двумерные проекцин трехмерных сцен, регистрируемых с помощью 
оптических снстем конкретной конфигурацин (расстояния н углы между KaMepaMH, 
паспортные данные H дисторсин объективов камер), конечно, является существенным 
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шагом в сторону имитационного моделирования. Однако заметнм, что данный поход 
все же основан не на физическом, а на геометрическом моделировании, поскольку 
традиционно ограничивается учетом геометрии съемки н не предполагает анализа 
других физических факторов, влияющих на качество получаемого нзображення. Ec- 
ли понятие «яркостно-геометрическая модель» трактовать расширительно — как рас- 
пределение скалярной или векторной характеристики в пространстве В", т > 1, 
тогда текстурированные трехмерные поверхностн (2,50) н объекты (30), которые рас- 
сматриваются B фотограмметрин, можно также считать разновидностью «иконических 
объектов». Впрочем, такне фотограмметрическне техники как реконструкция трех- 
мерных объектов no теням [46] следует все же отнести к методам нинтационного 
моделирования. | 

Используемый в фотограмметрин математнческий аппарат целиком основан на 
стереометрин, проективной геометрин н геометрической оптике. 

Далее этот подход можно развивать, объеднняя его с рассмотренным выше струк- 
турным подходом. При этом трехмерная структурная модель объекта, как правило, 
представляет собой структурный граф, вершинами которого являются фрагменты 
различных аналитических ЗО)-поверхностей (плоскостей, цилиндров, конусов, эл- 
ЛИПСОНДОВ н T. A.), либо границы между HHMH, которые, в свою очередь, прелстав- 
ляют собой сегменты различных аналитических Зр-кривых (прямых, окружностей 
ит. п.) Ребра структурного графа соответствуют геометрическим отношениям между 
элементамн-вершннамн (расстояние между элементами, относительное расположекне 
H T. A.) Задача стереореконструкцин, так же как H задача обнаруження н идентифн- 
кацин объектов, сводится, TaKHM образом, к задаче оптимальной индексации трех- 
мерного структурного графа на нзображенин или ансамбле стереоизображений. 

Используемый в современной литературе по машинному зрению термин модель- 
ный подход высокого уровня предполагает решение нменно этой задачн отождеств- 
ления (привязки) трехмерной структурной модели объекта. 
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5.2. Преобразование Хафа, его обобщения и модификации 


Одним нз наиболее эффективных методов понска аналитически заданных примитивов 
является на сегодня группа методов, основанных на ндее преобразования Хафа. 

Основная идея преобразования Хафа сходна с идеей хорошо знакомого нам по Kyp- 
су школьной геометрин метода «общих геометрических мест». Вспомним, например, 
задачу построення треугольника по трем его заданным сторонам. Прн этом вначале 
произвольным образом строится одна сторона треугольннка, а затем проводятся две 
окружностн с раднусами, равнымн длине соответственно второй н третьей сторон тре- 
угольника н центрами, совпадающнин C концамн первой построенной стороны. JTH 
окружностн являются «геометрическим местом точек», в которых могли бы заканчи- 
ваться искомые стороны треугольника. Для всех точек левой окружности выполняется 
условне «расстояние от центра равно длине второй стороны». Для всех точек правой 
окружности выполняется условие «расстоянне от центра равно длине третьей сторо- 
ны». Там, где окружности пересекаются, выполняются оба условня — таким образом, 
это н есть искомая третья вершина треугольника — «общее геометрическое место» 
(puc. 5.2.1). 

Обобщая эту методику геометрического построения, можно сказать, что было осу- 
ществлено «голосование» в пользу возможного положения вершины, при этом B голо- 
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совании участвовали две точки (концы первого отрезка), H в результате проведення 
процедуры голосования победила та точка, которая набрала максимум голосов (в 
данном случае, как мы видим, — два, в отличие от остальных точек плоскости, по- 
лучивших ноль или один голос). При этом форма «голосующей кривой» для каждой 
точки определялась нашими апрнорными знаниямн о геометрических характеристн- 
ках искомого объекта (в данном случае — заданными длинами сторон треугольника). 


А Ў“ 


ruri 


Рис. 5.2.1. Решение задачн о построенни треугольника По трем заданным сторонам методом общнх 
геометрических мест (методом голосования) 


Аналогичным образом решается еще одна известная 
школьная задача — о построении окружности по трем 
заданным точкам (рис. 5.2.2). В этом случае в качестве 
общих геометрических мест выступают серединные пер- 
пендккуляры к отрезкам, попарно соединяющим задан- 
ные точки. Заметим, что для решения задачи достаточ- 
но найтн точкуьлересечения двух серединных перпен: 
дикуляров — третий строить уже не обязательно — он 
непременно пройдет Через ту же точку, которая н яв: 
ляется центром нскомой окружностн. Это пронсходит 
потому, что в школьных задачах на построенне всегда 
дано ровно столько данных, сколько нужно для реше- 
HHA задачи, н эти данные Всегда совместимы, то есть 
Рис. 5.2.2. Решение задачн о no- НХ ГОЛОСА Не могут противоречить друг другу. 
строеннн окружностн по трем Рассмотрим теперь, как эта HAEA может быть модн- 
заданным точкам методом об- Фицирована для работы с реальными даннымн Hà изоб- 
щих геометрических мест (мето- Раженнях, когда требуется найтн TOT HJIH нной геомет- 
дом голосования) рический примитив, заданный аналитическим уравне- 

HHeM, и при этом Hà изображенин нмеется не две н не 

три, а значительное количество голосующих контурных 
или особых точек. На рис. 5.2.3 показано решение задачн обнаруження окружно- 
сти известного раднуса B бинарном точечном множестве, в котором могут присут- 
ствовать и «ложные» точки (puc. 5.2.3a). Очевидно, что набор центров всех возмож- 
ных окружностей раднуса R, проходящих Через каждую конкретную точку, образу- 
ет окружность раднуса Л вокруг этой точки. Таким образом, геометрическое место 


5.2 ПРЕОБРАЗОВАНИЕ ХАФА, ЕГО ОБОБЩЕНИЯ И МОДИФИКАЦИИ 285 


точек, которые могли бы быть центрамн окружностн данного размера, проходящей 
через эту точку, представляет собой окружность такого же размера с центром в 
голосующей точке. Наилучшее решенне относительно положения центра «нанболее 
вероятной» присутствующей в данном точечном множестве окружности соответству- 
ет точке пересечения максимального числа голосующих окружностей (Ha рис. 5.2.36 
точка-«победитель голосования» помечена большим кружком, а соответствующая ей 
окружность — сплошным контуром). Заметим, что были в нашем примере и такие 
точки, Чьн голоса (на рис. 5.2.36 они помечены красным (см. цветную вклейку)) про- 
тиворечилн найденному в итоге решению. Но поскольку нас интересовал поиск одной 
нанболее вероятной окружности, голоса, поданные за менее популярные гипотезы, B 
итоге были пронгиорированы. Чем больше отношение числа точек, лежащих Hà «глав- 
ной» окружности, к общему числу точек. тем более достоверным н устойчивым ÓY- 
дет полученное решение (здесь также можно говорить об отношении сигнал/шум»). 
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Рис. 5.2.3. Прининп обнаруження окружности нзвестного раднуса в бинарном точечном множестве 
методом голосовання 


Таким образом, метод голосовання действительно позволяет решать н «некоррект- 
Ные» C точкн зрення школьной геометрии задачи анализа избыточных н противоре- 
чивых пространственных данных, 

А что случится, если на изображении присутствует несколько фигур заданной фор- 
мы (в рассматриваемом примере — несколько окружностей заданного радиуса)? Тогда 
у нас возинкнет несколько кандидатов с достаточно большим количеством поданных 
голосов. Если в нашу задачу входит понск H обнаружение всех таких объектов, то 
решение задачи будет представлять собой список из нескольких «победителей го- 
лосования», В чью пользу было подано достаточное количество голосов, чтобы они 
преодолели установленный барьер минимального «избирательного ценза» (порог на 
количество поданных голосов). 

Итак, для того чтобы начать непосредственно использовать метод голосования в 
задачах компьютерного анализа изображеннй, нам осталось решить единственную 
серьезную проблему — как вычислительно (алгорнтмически) организовать процесс 
порождения гипотез н сбора голосов B их пользу в случае, когда число точек Ha нзоб- 


раженин может составлять десятки H сотни тысяч. И здесь мы, наконец, переходим 
собственно к преобразованию Хафа. 
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5.2.1. Преобразование Хафа для поиска прямых. Классическое преобразование 
Хафа [188] было первоначально разработано для выделения Ha бинарном нзображе- 
нии ме кругов, а прямых линий. Оно основывается на использовании пространства 
параметров, в котором H производится понск прямых. Наиболее распространены сле- 
дующие параметрические уравнения прямых: 


Ү= ЕХ +b; 
X cos0 + Y sinO = р. 


Однако поскольку прямые на глоскостн характеризуются двумя параметрами, про- 
странство параметров всегда будет ниеть размерность два. 
Классическое преобразование Хафа использует параметры (р.Ө) уравнения (5.2.1). 
Пусть контурное изображение рассматривается как множество точек (г.у) В ис: 
ходном пространстве Е = (X,Y). Множество прямых, проходящих Через каждую TOY- 
ку (T.y), может быть изображено как множество точек (р.Ө) в пространстве (0,8). 
Функция отображения точки в пространстве Хафа называется «функцией отклика». 


(5.2.1) 


Параметризация Голосование точек в аккумулятор 


Рис. 5.2.4. Процедура голосовання преобразования Хафа 


Идея преобразования Хафа состоит в том, что для каждой точки пространства 
параметров суммируется количество голосов, поданных за нее, T. e. число точек HC- 
ходного пространства, порождающих в пространстве параметров отклики, проходящие 
через данную точку (0,0). Здесь используется тот факт, что любые две сннусонды 
в пространстве параметров пересекутся в точке (р,Ө) только тогда, когда порождаю- 
щие HX точки в исходном пространстве лежат на прямой, описываемой уравнением 
Хсоз0 + Y sin = р c параметрами (р.0). Введенная таким образом функция А(р,0} 
называется аккумуляторной функцией, причем абсолютное значение ее в точке (0.0) 
равно числу точек контурного препарата, лежащих на соответствующей прямой в ис: 
ходном пространстве изображення. 

В том случае, когда на изображении представлено т прямых, аккумуляторная 
функция А(р,0) будет иметь ровно т локальных максимумов в точках, соответству- 
ющих нмеющнися прямым. Takum образом, для обнаружения прямых на исходном 
изображении достаточно найтн все значительные локальные максимумы аккумуля- 
торной функции. Что очень важно с практической точки зрения, такой алгоритм вы: 
деления прямых, B отличие от рассмотренных ранее методов выделения JIHHeaMeHTOB, 
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вовсе Не опирается на предположение о связности анализнруемой лнинн. Поэтому 
методы голосования хорошо работают в условнях загоражнвания HNH наличия других 
помех. 

Как правило, А(р,Ө) вычисляется He для каждой точки пространства параметров, 
а для каждой «ячейки аккумулятора», T. е. некоторой прямоугольной областни, на KO- 
торые разбнвается пространство параметров и размер которых ограничивает точность 
вычислений половинным значением дискреты разбиения по каждому из параметров. 

Инварнантность преобразования Хафа к сдвигу, масштабированню н повороту Bbl- 
текает непосредственно из определения. Более того, поскольку прямые линин при 
любых проективных преобразованиях трехмерного пространства всегда переходят 
только в прямые линии (в вырожденном случае — в точки), преобразование Хафа 
позволяет обнаруживать линеаменты инварнантно не только к аффииным преобразо- 
ванням плоскости, но и к группе проективных преобразований B пространстве. Это 
дает возможность использовать преобразование Хафа для робастного детектирова- 
ния трехмерных объектов, контуры которых полностью HJIH частнчно описываются 
линеаментамн. 

Легко убедиться, что в смысле результата преобразование Хафа эквивалентно 
нитегрированкю контурного изображения вдоль всех возможных прямых. Это обу- 
словливает его фильтрующие свойств и`определяет высокую степень помехозащн- 
щенностн. Это замечание B полной мере относится н к обобщенному преобразованию 
Хафа (СНТ), которое будет описано в следующем подразделе. 

Эффективность преобразования Хафа по сравнению с согласованной фильтрацией, 
связана с двумя основными факторамн. 

1. Удачный выбор параметров. Здесь использован тот факт, что при проективных 
преобразованиях прямая всегда переходит в прямую. В связи с этим сформировано 
пространство параметров низкой размерности (п = 2). 

2. Однократное использованне входной ннформацни. Каждый пиксел изображения 
опрашивается только один раз. Прн этом дальнейшие вычисления производятся толь- 
KO для пикселов, несущих полезную ннформацию (в данном случае — контурных). 
Отсюда непосредственно следует, что вычислительная эффективность преобразова- 
ния Хафа тем выше, чем меньше число пикселов, несущих полезную ннформацию. 
по сравнению с площадью нзображення. Это обусловливает, в частности, прениуще- 
ственное использование этого метода прн анализе контурных препаратов, а также 
точечных паттернов. 


5.2.2. Связь преобразования Хафа с преобразованием Радона. В компью- 
терной рентгеновской томографии и радноастрономин давно используют прямое и 
обратное преобразования Радона для восстановлення изображений по некоторому на- 
бору нх проекций. Для некоторой функцин f(x,y) преобразование Радона Ро(р) 
определяется как 


Pe(p) = f f(z,y)6(p — xcos0 — узіп) dz dy. 


Легко увидеть, что это He что иное как интегрирование /(=, у) вдоль прямых, onpe- 
деляемых уравнением (5.2.1) для разных Ө. Поэтому преобразование Хафа однозначно 
связано с преобразованием Радона. 

В самом деле, преобразование Радона н преобразование Хафа нмеют возможность 
выделення прямых Hà изображенин. Причем и TO, и другое преобразование обладают 
свойством подавления шумов, поскольку вдоль прямых производится нитегрирова- 
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ние. За счет этого отношение сигнал/шум B пространстве параметров выше, чем на 
исходном изображении, н обнаружение прямых обладает большей достоверностью. 
Пусть F(u,v) — преобразование Фурье or f(z, y); 
Pe(p) — проекция f(x,y) вдоль прямых под углом 6; 
Se(w) — преобразование Фурье or Pa (w), тогда 


Se(w) = F(wcos8, wsin0). 


^ Это означает, что для вычисления преобразования Радона необходимо: 
.. 1) вычислить F(u,v) для f(z,y); ES 

2) для V6, є [0?, 180°] получнть набор функций {5в ()?} в частной области: 

. 3) вычислить обратное преобразование Фурье от каждой Se(w), в результате че- 
го, мы получим набор Pe(p), которые в совокупности M определяют преобразованне 
Радона для изображения. 

Таким образом, переход от исходного изображения /(т,у) к пространству npu- 
знаков (0,0) происходит через частотную область, в результате Чего большая часть 
вычислений заключается в многократном применении БПФ, что дает вынгрыш Bo 
времени обработки. 

Известно также применение преобразования Радона для улучшения линейных 
свойств зашумленных изображений. Пусть дано изображение f и его преобразова- 
ние Радона v: 

v = Rf, 


где R — оператор преобразования Panona. 
Введем оператор Е, который действует в признаковом пространстве (р,0) и усн- 
ливает нмеющнеся пики: 


у = Еу = ЕВ/. 


Улучшенное в смысле линейных свойств нзображенне можно теперь получнть, 
применяя обратное преобразование Радона: 


/ = Ву = В ‘ERJ. 


Алгоритм основан на следующих выражениях, связывающих f(x,y) к Palp): 
fe = f Qolda, 


где Qo (t) = f Se(w)|w|exp[jwt] dw, Sa(w) = f Pa(p)expl-jwp]dp, t = хсоз@ + ysinð. 

Алгоритм включает следующие этапы: 

1) вычислить преобразование Фурье Se(w) для Po(o); 

2) отфильтровать Рь(р) путем умножения Ha |w| в частотной области; 

З) вычислить обратное преобразование Фурье Qe(t) для каждого Se(w)|u]|; 

4) вычислить обратное преобразование проекцией (1) на (z,y). 

Итак, мы видим, что в области обнаружения прямых преобразованне Хафа ча- 
сто выгодно использовать в форме преобразования Panona. Однако, во-первых, это 
зависит от количества информативных точек, подлежащих обнаружению (контурных 
и особых точек на порядки меньше, чем всех точек изображения, H поэтому HX го- 
лосование может быть более эффективным, чем тотальное преобразование Радона), 
а во-вторых, как будет показано ниже, преобразование Хафа можно обобщить на 
случай обнаружения объектов произвольной формы. 
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5.2.3. *Различные способы параметризация прямых. Как уже отмечалось, 
практические вычислительные методы, основанные на преобразовании Хафа, работа- 
ют не в непрерывном пространстве параметров, а на ячейках аккумулятора. Одна- 
ко и изображения в цифровых системах определены на дискретной прямоугольной 
сетке, которая, очевидно, допускает лишь некоторую соответствующую дискретную 
параметризацию семейства прямых. Такая естественная параметризация прямых для 
дискретных массивов н связанное с ней преобразование Хафа предложены в статье 
[286]. 

Рассмотрим естественное множество прямых линий, порождаемое целочисленной 
решеткой N х М точек, содержащей №? элементов. Считая, что любые две различные 
точки решетки определяют прямую, мы увиднм, что размер этого множества составит 
N?(N* — 1), т.е. О(№) линий. Однако многие линин будут определены несколько 
раз своими различными отрезками, если на них лежит более двух точек исходной 
решетки. Таким образом, представление натурального множества прямых в виде че- 
тырехпараметрического массива [(т1,у1), (z2,y2)] концевых точек размерности O[N*] 
является явно избыточным. 

Естественное множество прямых порождает также н естественное множество уг- 
лов (04). которое можно описать как tg, = i/j, где {i,j} Е {0,1,...,М ~ 1}. 

Учитывая сниметрню, 0 < 180, < 1,ричем эти углы повторяются во всех четырех 
квадрантах: l 


tg0 = [tg(90° — 6)]*' = —[tg(90* + Ө)]-! = —[tg(180? — 6]. 


Все возможные углы 0 < Ө, < 1 могут быть получены геометрически с использова- 
инем N(N — 1)/2 линий, так что число уннкальных углов Na должно быть 2N(N ~- 1) 
(в четырех квадрантах). Однако и здесь мы увидим избыточность; некоторые отноше- 
ния 1/j являются кратными (например, 3/12 = 2/8 = 1/4). Вероятность того, что два 
целых числа соотносятся заданным образом, равна 6/m?. Это означает, что размер 
нензбыточного множества углов на решетке равен 


Na = (6/1*)2N(N — 1) = 1,216 №(М - 1). 


Аналогично, для множества прямых 


№, > 0,23№2( №2 — 1). 


Перейдем к параметризацин преобразования Хафа. Хотелось бы ввести такие na- 
раметры, которые бы не только обеспечивали вычислительные выгоды. Ho н имели бы 
простую H интунтивно понятную интерпретацию. Кроме того, существует проблема 
«запрещенных областей», т.е. таких областей решетки параметров, которые инкогда 
не будут заполнены при «голосовании» точек нсходного пространства. В традиционном 
(р.0)-пространстве такне области занимают до 10% общей площади для изображений 
на квадратных дискретных решетках N х N. Эта память неизбежно пропадает при 
программной реализации. Кроме Toro, тратнтся лишнее время на опрос этнх заве- 
домо пустых областей при определении пиков аккумуляторной функцин. Еще одним 
важным соображеннем при выборе параметров является конечность их значений. Ha- 
пример, параметр k в уравнении Y = kX + b, как известно, является неограниченным 
при Ө = 90°. k = +оо). Исходя из выше изложенного, можно предложить следующие 
варианты параметризацин. 

Точки периметра (m,n). Будем описывать прямые парой концевых точек, 
лежащих на периметре решетки N x N. Очевидно, это составляет AN точек или (с 
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учетом симметрии) 1/2(4N x 4N) = 8N? линий. Так как четверть из этих точек ле- 
жит на одной прямой ( стороне квадрата), окончательный размер массива параметров 
составит 6/№2. Это лишь небольшое подмножество натурального множества с 0 [N*] 
элементов. 

Преимуществом параметризацни (m,n) является то, что будучи применеиной B 
случае нзображення, разбитого на области меньшего размера, она позволяет легко 
соединять линин. проходящие через несколько таких областей, так как онн смыкаются 
по периметру. Недостаток заключается В том, что информация об угловом положении 
прямых не содержится здесь в явном виде. 

Точка периметра и угол (a,n). Здесь мы используем одну точку nepe- 
сечения данной пряной с периметром n (0 < |n| < М) u угол, определяемый прямой, 
проходящей через центр решетки н точку периметра а (CN + 1< 0 < N - 1). Mac- 
сив аккумулятора содержит здесь, очевидно, 4N? элементов. Эта параметризация не 
создает «запрещенных областей». Многие свойства пространства (a,n) можно pac- 
смотреть на примере описываемого ниже пространства (а, d). 

Наклон н смещение (4,4). Эта параметризацня содержит параметр a, т. e. 
угол, определяемый направлением из центра к некоторой точке на периметре квадрат- 
ной решетки, однако смещение линии по вертикали или горизонтали из центра теперь 
фиксируется при помощи расстояния 4 из центра до пересечения прямой с осью у нли 
т. Эта параметризация на решетке N x N порождает 3N? или 4N? элементов акку- 
мулятора. Легко увидеть, что (а,4)-парамстризация тесно н пепосредственио связана 
с (р,0)-параметризацией и наиболее естественна поэтому для использования в пре- 
образовании Хафа. 

Также связана она н с параметрами уравнення у = ar + b, где а нитерпретируется 
не как угол, а как наклон прямой. Для линий с наклоном меньше 45? d отсчитывается 
от центра до пересечения прямой с вертикальной осью y, а для наклона больше 45? d 
измеряется вдоль горизонтальной оси =. Чтобы сохранить пепрерывность отображения 
необходимо также поменять знак d для углов 45° < 0, < 90°. 

Отображение (x.y) на (a.d): 

N-I 


а=у- Qaz)(N – 1) для 0« la| < = 


2a; - 
d=- |r — 2y + — | для Y «a&N N, 
N- 2 
N | 
dz |e + oy + 2] для -N+l<a<- 


позволяет определить преобразование Хафа c нараметрамн (a.d). 

Основанне пормалн. Рассмотрим CIUC один известный способ параметри- 
зации прямых. называемый «снованне нормални» (foot-of-normal). Суть этого метода 
заключается в следующем. Пусть используется траднцнонная параметризация (р,0) 
для обнаружения прямых в нормальных координатах. Тогда для вычисления образа 
любой точки (T.y) в пространстве (р.Ө) необходимо вычисление арктапгенса, чрезвы- 
чайно дорогое в плане трудоемкостн. Метод «основания нормални» этого не требует. B 
этом методе прямая характеризуется координатами (то, уо) точки основання нормали 
(перпендикуляра), опущеной на эту прямую нз начала коордннат или другой выбраной 
опорной точки. 

Дэвксом [141] было предложено следующее остроумное использование этой na- 
раметризации. Применнм к исходному изображению в плоскости (z,y) днфференцн- 
альный граднентный оператор Собела для получення в каждой интересующей нас 
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контурной точке компонент локального градиента (9z, gy). Определим теперь точку 
(то, уо) как «основание нормалн» прямой (0,6), проходящей через голосующую точку 
(т.у). Тогда справедливы соотношения 


(т — zo)zo + (y — yo)yo = 0. 
Разрешив их относительно To M Yo, получим 


То = Уд», 


yo = Убу, 


где V = (rg, + уду) /(92 + 92). 

Заметни, что эта параметризация требует нескольких умножений, сложений H 
лишь одного деления. Интерпретация обратного преобразования (для вычисления то- 
чек, принадлежащих прямой) имеет BHA 


т = + Wg, 
у = yo - Wg., 


где W = (zgy - yg;)/(g2 +92). 

Проанализируем возможные ошибки этого метода. Пусть вследствие угловой 
ошибки c в нанравлении определяемой прямой мы получили значение (11.91) BMC- 
сто (то,Уо) для основания нормали. Первое приближение ошибки дает оценку 


фр = =5, 
55 = -ер, 


где S = V/Gro — z2) + (уо 00). 

Как видно, ошибка при одном H TOM же € тем больше, чем дальше точка (£0, ya) 
от начала координат. Так, при помещенин начала координат O в пектр квадратного 
изображения размера N х М пикселов верхняя граница ошибки составляет bpe N/ 2. 

Естественным с точки зрения уменьшеиня ошнбки метода «основання пормали» 
является разбиение на подизображення, которое, очевидно, позволяет ограничить 
ошибку сколь угодно малой величиной за счет разбнения на все болес мелкие изобра- 
ження собственными началами координат в центре каждого H3 подизображений. При 
этом возникают две основные проблемы. 

Первая из инх заключается в TOM, что «разряженная», но длинная прямая не 
будет обнаружена методом разбиения, т. к. в каждом из поднзображений не хватит 
принадлежащих ей точек, чтобы дать значительный пик аккумуляторной функции. 
Однако при обнаружении коротких отрезков прямых метод разбиения на подизобра- 
жения имеет значительные преимущества, в частностн — более устойчив к шуму, H 
наличие длинных «плотных» прямых, также обнаружнваемых HM, не будет влиять на 
обнаружение коротких отрезков. Более того, этот метод позволяет фиксировать He 
только прямые JIMIIHH, HO и линин C «медленчо меняющейся» кривизной, которые в 
каждом из пересекаемых сегментов обнаруживаются как соответствующие отрезки 
прямых (секущих HJIH касательных). 

Вторая проблема связана с падением точности определения направлення прямой 
B методе «основания нормали» вблизи значення (то, уо) = (0,0). В самом деле, прн 
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нахождении (To, Yo) в начале координат основанне нормалн перестает определять oA- 
нозначно какую-либо прямую, а определяет все семейство прямых, проходящих через 
начало координат. Чаще всего этнм эффектом можно пренебречь, однако в каждом 
конкретном случае об этом необходимо помнить н анализнровать вероятность ошибок. 
Корректным способом решения этой проблемы является перенесение начала коордн- 
нат для точек (то, уо! с малым р в какую-либо другую, заранее определенную точку. 
Однако это связано с усложнением вычислений. 


5,2.4. Преобразование Хафа для поиска окружностей. Опнсанный выше ал- 
горитм преобразования Хафа будет работать совершенно аналогично не только при 
любом другом выборе параметров прямых, но и будучн примененным к обнаружению 
любой другой кривой, опнсываемой на плоскостн некоторым числом параметров, что 
повлияет лишь на содержание н размерность пространства параметров. 

Например, в уже рассмотренной намн задаче понска окружностей заданного радн- 
уса R мы можем считать, что нмеем дело с двухпараметрическим семейством кривых 
(2 — ro)? + (y - yo)? — R?, и производить поиск максимума аккумуляторной функ- 
ции A(r,y) в пространстве параметров (т,у). Заметим, что пространство параметров 
в этом случае практически совпадает с исходным (x,y). Поскольку набор центров 
всех возможных окружностей раднуса К, проходящих через заданную точку, образу- 
ет окружность радиуса А вокруг этой To4kH, функция отклика в преобразованни Хафа 
для понска окружностей известного размера представляет собой окружность такого 
же размера ‹ центром в голосующей точке. Макснмум аккумулятора соответствует 
положенню центра окружности на изображении, как H было показано на рис. 5.2.3. 

Опишем теперь алгоритм обнаруження окружностей заданного радиуса на полу- 
тоновых изображениях, использующий оценку ориентации нормални в голосующих 
контурных точках. Первым шагом процесса является обнаружение пикселов края, 
окружающих периметр объекта. Например, может использоваться оператор Собела, 
дающий оцеику амплитуды и направления вектора-граднента. Голосующиин контур- 
ными точкамн считаются точки с высоким значением модуля градиента. Для kax- 
дого обнаруженного краевого пиксела используется оценка положения н ориентации 
контура с целью оцеики центра крукового объекта раднуса К путем движения на 
расстоянке К от краевого пиксела B направяенин нормали к контуру (то есть в 
направлении вектора-градиента). Если эту операцию повторять для каждого крае- 
вого пиксела, будет найдено множество положений предполагаемых точек центра, 
которое может быть усреднено для определення точного местонахождения центра. 
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Рис, 5.2.5. Принцип обиаружеиия окружиости неизвестного раднуса ila полутоповом изображении 
методом голосования 


ПРЕОБРАЗОВАНИЕ ХАФА. ЕГО ОБОБЩЕНИЯ И МОДИФИКАЦИИ 293 


NT 
LI] 


Если радиус окружностн является неизвестным или переменным, чеобходнмо 
включить Л в качестве дополнительной переменной в параметрическое пространство- 
аккумулятор: тогда процедура поиска пика должна определить раднус, так же как н 
положение центра путем рассмотрения изменений вдоль третьего нзмерения парамет- 
рического пространства. Если размер обнаруженной окружностн нас не интересует 
н требуется обнаружить только ее центр, то можно обойтнсь H без увеличения раз- 
MepHocTH пространства параметров. Пусть для каждого возможного направления на 
«центре контурная точка голосует не точкой на расстоянии Д, а лучом в этом Ha- 
правлении (puc. 5.2.5а). Такнм образом, окажутся задействованы все возможные по- 
ложення «центра» прн любом масштабе объекта, H это позволит искать окружности 
независимо от нх раднуса (рис. 5.2.56). 

На втором этапе анализа, после обна- 
ружения потенциальных центров окружно- 
стей, можно будет повторно обратиться к 
изображению H уточнить раднус окружно- 
стей с центрами в найденных точках. За- 
помним эту ндею — она нам еще приго- 
дится ниже прн описании методов постро- 
ения вычислительно эффективных пфоце- 
дур анализа свидетельств. JaMeTHM Tak- 
же, что рис. 5.2.50 демонстрирует ннтерес- 
ную связь опксаниого современного anro- 
ритма анализа полутоновых изображений c 
задачей из школьного курса о построении 
окружности по трем точкам (рис. 5.2.3). В 
самом деле, ведь направление градиента в 
точке контура коитрастной окружности на Рис. 5.2.6. Приицип обивружеиия окружно: 
нзображенин есть не что иное как пре- сти неизвестного радиуса в бинарном точечном 
дел срединного перпендикуляра к секущей множестве методом голосования 
OKpyXlloCTH при стремленни длины секу- 
щей к нулю. Если бы у нас не было непрерывного контура окружности, а было лишь 
точечное множество (как в примере на рис, 9.2.3), то мы могли бы реализовать rono- 
сование пар точек в пользу соответствующих середниных перпендикуляров, и, таким 
образом, решить задачу выделения окружностей нензвестного размера в бинарном 
точечном иножестве (puc. 5.2.6). 

В настоящее время разработаны также эффективные моднфикаини преобразова- 
ния Хафа для выделения эллипсов и других известных видов аналитических кривых 
([155|, [258]). 


5.2.5. Аналнз аккумулятора при поиске геометрических примитивов. Обычно 
используются два основных метода анализа пространства параметров. Первый метод 
заключается в непосредственном поиске фиксированного числа локальных максниу- 
мов (одного глобального максимума) в пространстве параметров. Прн этом возможны 
различные способы отыскання таких максимумов. 

Второй метод предполагает пороговую сегиентацию аккумуляторной функции (или 
ее проекций, как в методе латеральных гистограмм) н последующий анализ связных 
областей пространства параметров. Очевидно, что оба 3TH подхода в некотором смыс- 
ле эквивалентны, Т.к. выбирая порог равным значению минимального локального 
максимума, мы получки при помощи второго метода TO же, что и при использова- 
нии первого. Однако остается проблема оптимального выбора порога для конкретного 
изображення. 
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Кроме того, очевидно, что короткие линин (отрезки кривых) дадут относительно 
низкие пики аккумуляторной функции по сравнению c длинныин. Поэтому, они будут 
обнаружены лишь в том случае, когда «anpHopH» (до постройки порога) известно, что 
они присутствуют на изображеннн. 

Рассмотрим способ анализа аккумуляторной функцин, исключающий понятне по- 
рога H3 рассмотрення. Основная идея этого метода заключается в том, что на каждом 
этапе анализа ведется понск одного глобального максимума аккумуляторной функ- 
цин, после чего из всех ячеек аккумулятора вычитаются «вклады» всех тех точек 
исходного изображения, которые принадлежат кривой, соответствующей обнаружен- 
ному максимуму, н вповь повторяют понск. Практические результаты применения 
этого метола свидетельствует о его большей, по сравнению со стандартными мето- 
дами, чувствительности к небольшим отрезкам (выборкам), H в то же время — o 
высокой робастности н устойчивости по отношению к шуму. 

Когда речь идет о сложных объектах, то НТ и различные его молификации приме- 
пяются на ITANE выделения •черт», после чего производится «сборка» возможных объ- 
ектов, исходя из их структурного описания. Такой подход называется «иерархическим 
анализом». 


5.2.6. Обобщенное преобразование Хафа. Выше было описано преобразование 
Хафа, которое позволяет быстро и устойчиво обнаруживать графические примитивы, 
описываемые апалитнческими уравпепиями: прямые линин, окружности, эллипсы H 
т. п. Позднее метод голосования контурных точек в пространство параметров был 
обобщен и на случай кривых, не описываемых в аналитической форме [123]. В такой 
наиболее общей форме он получил наименование обобщенного преобразования Хафа 
(GHT). 

Рассмотрим сначала задачу обнаружения объекта произвольной формы, заданно- 
го эталонным изображением, в случае, когда требуется обеспечить инварнантность 
результатов обнаружения к сдвигу нзображення, но не к его масштабу (рис. 5.2.7). 

В этом случае, в отличие от задач обнаруження окружности, существенно то, что 
расстояние К от текущего пиксела граннцы до ее центра больше не константа, а AB- 
ляется функцией Rio) от угла ф раднуса-вектора, направленного от точки контура 
к центру (рис. 5.2.7а). В дополнение, з абщем случае, «центр» здесь должен заново 
ннтерпретнроваться как некая условная точка локализации O. Выбор ToukH локалн- 
зации О не является единственным н может регулировать ошибкн. В общем случае 
следует ожидать, что положение точки локализации рядом с центром тяжестн пери- 
мстра объекта минимизирует ошибки, обусловленные неточностью оценкн ориентации 
края. 

Для определения простых форм функция В(ф) может быть описана аналитиче- 
ски. Однако для большинства форм это невозможно. Тем не менее, Ballard показал, 
что подход еще остается жизнеспособным, так как для запоминания информацин 
о форме можно использовать специальные просмотровые таблицы (look-up-table), 
содержащие дискретные значения R(0) для различных значений углов. Соответствен- 
но, алгоритм состоит нз этапов обучения детектора Хафа путем составления LUT 
по эталонному изображению (рис. 5.2.72) н этапа обнаружения объекта на тесто- 
вом изображении путем голосования контурных точек с использованием этой LUT 
(рис. 5.2.76). 

Попробуем теперь обобщить эту схему для случая обнаружения объекта про- 
извольной формы в условиях, когда объект может не только перемещаться, но н 
вращаться в плоскости изображения. Здесь мы будем отталкиваться от нден HC- 
пользования информации об орнентации вектора-граднента в контурных точках, 
В этом случае сушественио To, что раднуса-вектор в краевой точке является Te- 
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перь не функцией от абсолютного угла направлення на центр Ф, а функцией от- 
носнтельного угла между направленнем градиента и направлением раднуса-вектора 
(рис. 5.2.8). В остальном алгоритм полностью совпадает с описанным выше, одна- 
ко теперь он уже обладает свойством инварнантностн к вращению. Именно B та: 
ком, наиболее эффективном виде он н получил названне обобщенного преобразо- 
вания Хафа (СНТ). Можно также отметить, что за счет использования инфор- 
мацик о направлении градиента в точках контура, СНТ обладает гораздо лучшей 
помехозащищенностью, так как точки с неподходящими награвлениями граднен- 
тов просто не голосуют в пользу соответствующих гипотез, а следовательно, со- 
отношение голосов, отданных за правильных кандндатов, существенно улучшается. 


“опссующея roua ^7 


"Lt 


Рис. 5.2.7. Идея o6napyxenun фигуры произвольной формы, иневривитиой к сдвигу: с — обуненис 
лутем составления LUT: 6 — обнаружение путем голосования с использованием 1.0Т 


Таким образом, преобразование Хафа, 
GHT и их различные модификации обеспечн- 


вают HHBapHallTHOe обнаружение геометриче- — Lom 
ских примитивов H объектов на изображенин ` qj рек оссо 

с высокой степенью помехозащищенностн H | ^^ 7 1 пані. ее 
значительной точпостью определения napa- y? 

метров местоположения и орнентацин. Суще- Ў / 


ственным ограничением lipHMEHHMOCTH этой 
группы методов является то, что описанные 
алгоритмы обнаруживают не самн полутоно- 
вые объекты, а нх коитуры. Поэтому объек- 
ты, Не имеющие четко выраженного контура. 
не могут быть подвергнуты детектированию 
с использованнем СНТ. 


- LUT: Riẹ) 


Рис. 5.2.8. Идея обобщениого прсобразова. 
ния Хафа 


5.2.7. *Специализированная процедура голосования для поиска эллипсов, 
Одной нз проблем применения методов голосовання является резкое увелнчение объ- 
ема вычислений в случае, когда известна только форма искомого объекта, заданно- 
го аналитической кривой, HO не нзвестны HH его размер (масштаб), HH орнентацня. 
Как отмечалось выше, стандартный метод решення задачн понска таких объектов за- 
ключается в использовании дополнительных координат пространства параметров для 
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орнентацин H для размера, Очевидно, это ведет к стремнтельному росту числа ячеек, 
числа накапливаемых в аккумуляторе свидетельств, а также — BpeMeHH накоплення 
H понска пиков в пространстве параметров. 

Дэвисом [142| предложена методика решения этой проблемы для случая понска 
эллнпсов. Эллипс — анизотропная (орнентнрованная) фнгура, н, казалось бы, понск 
п возможных орнентаций эллипса требует п листов (слоев, плоскостей) пространства 
параметров по координате орнентации. Однако можно обойтись одним листом для 
накопления голосов в пользу всех возможных орнентаций. 

Рассмотрим форму функции отклика, которую в пространстве параметров порож- 
даст каждая точка границы эллипса, если орнентация ero пронзвольна н нензвестна, 

Будем вначале работать в системе координат, связанной с точкой пересечения 
главных осей эллипса. Тогда уравненне эллипса приннмает вид 


т =асо$ф, 
y = bsinp, 


где (х,у) — координата точки на эллипсе; a,b — полуосн эллипса;  — угол наклона 
эллипса относительно осей координат нзображеннй. 
Отсюда орнеитация нормали описывается условиями 


— = asiny, 
Фф 

dy 

db = Ьсоѕу, 

H, следовательно, 

y a 

— --cetgy. 
d ме 

Такнм образом, ориентация нормали к эллипсу в данной точке имеет вид 
а 

480 = 180. 


Поскольку p = 0 — п, где tgn = y/z = (b/a)tgw н (еф = tg(0 —п)/(1 + tgOtgn), 
имесм A ed 
ig» = sin 2р — 


v? = a?cos? p + 02 sin? yy, 


откуда следует 
vi — y? (a? + b?) + a?b? sec? Y = 0. 

Для получения функции отклика B голосующей точке границы поместнм теперь B нее 
начало координат. Обозначим новые координаты через U u У, Получим 

2,2 

a*b 

V? = (à? + 9) – U? – 25 

U 

К сожалению, эта кривая He симметрнчна относительно начала KoopZHHaT. В случае 


эллипса с малым эксцентриситетом она аппрокснмнруется эллнпсом, В случае очень 
большого эксцентриситета она аппроксимнруется дугамн двух кругов 


22 
У=а н У= —. 
b 
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Однако, в общем случае, эта кривая всегда будет несимметрична. Введем два новых 
параметра 


c= я а = 
2 2 
Теперь для малых d наше выраженне примет вид 


Пренебрегая членом 02 /2с, который мало влияет на U, мы увиднм, что это урав- 
нение эллипса с полуосями 2d н d соответственно. Это сильно упрощает вычисления, 
но справедливо только для эллипсов, для которых d < 0,1с (T. e. а < 1,25). Однако 
если эллипсы невелнки, можно потребовать только а < 20. 

Таким образом, универсальная просмотровая таблица для обнаружения эллипса 
может быть составленг без учета эксцентриснтета (если он не слишком велнк) H 
размера эллнпса — в общем виде. Такую таблицу достаточно только передвинуть н 
масшабировать, чтобы получить функцию отклика для любой точки любого эллипса. 

Вычислительная сложность этого алгоритма нмеет оценку La > бл? ped, где р — 
число эллипсов, присутствующих на нЭображенин размером N х N пикселов, си d — 
параметры эллипсов. | 


5.2.8. *Рекуррентное преобразование Хафа в скользящем окне. При решении 
многих практических задач полезно иметь в каждой точке изображения информацию 
о том, проходят ли через нее какне-либо прямолинейные отрезки, и если да, то каковы 
их параметры. Для этой цели служит предложенное в [287] рекуррентное преобра- 
зование Хафа в скользящем окне (RHT). 

Определим окно размерами W x W, двнжущееся no изображению таким обра- 
зом, что его центральная точка последовательно проходнт все точки изображения, 
например, слева направо по каждой строке M снизу вверх по строкам. Пусть для 
каждого положения окна заполняется соответствующий аккумулятор преобразования 
Хафа, после чего результаты переносятся в общий аккумуляторный массив для всего 
изображения. Таким образом, в результате преобразовання формируется двумерный 
масснв аккумулятора, размеры которого совпадают с размерами исходного изобра- 
жения, а каждая точка характеризуется параметрамн нанболес достоверного отрезка 
прямой, проходящего через него. 

Для корректного переноса результата голосовапня в каждом отдельном окне в фи- 
нальный еднный аккумулятор, необходимо изменить параметризацню прострапства 
Хафа. Будем описывать прямую в окне парамстрамн (5,0). Здесь г — координата пе- 
ресечення осн X окна, a Q — угол наклона этой прямой к оси X. После голосования 
всех точек окна получим аккумулятор, в котором в точке (r,Q) будет содержаться 
количество точек, лежащих на прямой, проходящей в этом окне через точку (2,0) под 
углом Q. Теперь для переноса в конечный массив необходимо определить для KAX- 
дой точки на осн Ох окна прямую, за которую проголосовало нанбольшее количество 
точек, после чего 3TH результаты можно nepeHecTH в конечный массив B соответствую- 
шие ячейки. Однако очевидио, что при параметризации (T, Q) мы можем захватить да- 
леко He все прямые, так как часть из них будут пересекать ось Oz далеко за пределамн 
окна или не пересекать вообще. Для решения этой проблемы введем дополнительную 
параметризацию (у, Q). Проход c параметризацией (т, (9) назовем проходом no стро- 
кам. При проходе по строкам будем HATH окном от самого нижнего левого лоложення 
н полностью проходить по строке исходного изображения до крайне правого положе- 
HHA, а затем подниматься на строку вверх. При проходе по столбцам будем идти окном 
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от самого нижнего левого положения M полностью проходить по столбцу исходного 
нзображения до самого верхнего положення, а затем смещаться на столбец влево, 
После окончания обоих проходов, HX результаты объединяются при помощи операции 
«максимум». в результате чего в финальном аккумуляторе оказываются записанными 
те отрезки, за которые было подано максимальное количество голосов. Кроме это- 
го, учитывая, что мы используем два прохода н можем иметь угол наклона как по 
отношению к OCH От, так и к оси Оу, массив аккумулятора также должен содер- 
жать некоторый флаг, определяющий, какой тип значения угла содержится в данной 
ячейке, 

Заполненный таким образом массив аккумулятора содержит все возможные для 
данного изображения варианты расположения элементов прямых линий — лннеа- 
ментов. После этого необходимо выделить наиболее достоверные отрезки. Возможны 
следующие варнанты такой обработки; пороговое отсечение н выделение локальных 
максимумов. Параметрамн здесь являются некоторое пороговое зизченне H размеры 
прямоугольной области, в которой ведется понск максимума. 

Опнсанное преобразование Хафа в скользящем окне действительно позволяет по- 
лучить необходимое локально-параметрическое описание изображения. Однако соот- 
ветствующая его реализация требует неоправданно большого количества вычислений, 
В связи с этим была предложена следующая алгоритмическая реализация, позволя- 
ющая добнться тех же результатов при существенно меньших вычислительных затра- 
тах. Суть изменений заключастся в том, чтобы перейти к рекуррентиому заполнению 
аккумулятора скользя шего окна по аналогин C тем. как это делается для ранговых 
фильтров [47]. Для этого необходимо внести следующие моднфикацин. 

• Переход к натуральной параметризации прямых. Целесообразно использовать 
параметризацию (2, йг) для прохода по строкам н (y,dy) для прохода по столбцам. 
Здесь г — также точка пересечения прямой оси Ox, у — соответственно осн Оу; 
параметр dz — смещение координаты T при изменении координаты у на половину 
высоты окна, dy определяется аналогично. 

• Оптимизация процедуры голосования одной точки. В случае, когда HCII0JIb3y- 
ется параметризация (r,dr)/(y.dy). функция отклика каждой точки исходного про- 
странства B точностн представляет COGOR дискретную прямую в аккумуляторе, фор- 
мируемую при помощи операций целочислен го сложення. 

e Переход к рекуррентной реализации преобразования. Рассмотрим результат об- 
работки двух, следующих друг за другом позиций окна X; и Х,+ 1 строки Y;. Обработ- 
ка позиции X; заполняет конечный массив в диапазоне (X, - W/2; Ү,) - (X, + W/2; 
Ү;), обработка позиции X;,; заполняет конечный массив в днапазоне (X41 - И’/2; 
Yj) - (Xi-1 + W/2: Y,). Как видно, результаты двух соседних преобразований пересе- 
кается в диапазоне (Х;+у — W/2; У;) - (X; + И’/2; Yj) н при пересечении выбираются 
ячейкн с максимальным количеством голосов. Это позволяет создать единый аккуму: 
лятор для всей строки H обрабатывать всю строку целиком, после чего для каждой 
координаты г производится операция тах по столбцу аккумулятора, н определяется 
наилучший варнант смещения dr. Полученный результат заносится в соответствую: 
щую строку финального аккумулятора для всего изображения. Проход по столбцам 
аналогичен, изменяются только базовые осн. 

Ha puc. 5.2.9 приведены последовательные стадии применения ВНТ к авнационно- 
му изображению городской сцены. Выделены локальные прямолинейные структуры. 
Ha рис. 5.2.10 показаны примеры применения RHT с различными параметрамн раз- 
мера окна. 

В работах [140], [143]. [144], [145], [146], [147]. [148]. [150]. [154]. [155], [173]. 
[197], [198], [203], [208], [210]. [213]. [244]. [245], [248]. [250]. [255], [258] содержится 
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еще целый ряд интересных идей относительно использования различных моднфнка- 
ций и обобщений преобразования Хафа. 


Рис. 5.2.9. 11ример примсиения ЕНТ; а -- исходное полутоновое изображение; 6 — исходный бинар: 
ный контуртый пренарат; в — результат обиаружения линеаментов. На исходиом коитурном препа. 
рате выделены локальные примолинейные структурь. 


Рис. 5.2.10. Пример обнаружейии лнпеаментов с использованием RIT с различными параметрами 
размера окна: а — маленький размер окна фильтрации; 6 - средний размер окна; а -- большой 
размер окна. Выделены лингаменты различных размеров 


5.2.9. Литература для самостоятельного изучения. Лучшим русскоязычным 
описапием группы процедур ссгментации изображений на основе моделей. к кото- 
рым относится преобразоваине Хафа, следует признать описание, даиное в книге 
(Форсайт, Понс) [44[. В главе 15 «Сегментация через подбор модели» описано преоб- 
разовапне Хафа (в данном переводе названное преобразованием Xoxa), его различные 
моднфнкацнн. а также лано описание процедур голосования как процедур вероятиост- 
пого вывода (в нашей терминологии — анализ свидетельств на изображениях. см. 
ниже). 

Кинга Дэвиса [149], к сожалению, не переведена на русский язык, однако в ней 
наиболее полно в англоязычной книжной литературе описано все богатство и разно- 
образне как методов, восходящих к преобразованию Хафа, так н их приложений в 
области машинного зрення. 
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5.3. *Трехмерные модели объектов для задач машинного зрения 


Большинство систем машинного зрения, предназиачениых для распознавания трех: 
мерных объектов, сравнивают модель сцены (построеиную в результате обработки 
нзображеннй, полученных от одного илн более датчиков) с моделью нз базы данных, 
содержащей описание объекта, подлежащего идентификации. 

В табл. 5.3.1 показаны основные ситуации, связанные с выбором стратегии обна- 
ружения н идентификации объектов. 


Таблица 5.3.1. Подходы, нспользуемые в системах распознавания объектов 


[30 | 20-30 | 3D-3D | 


C одной стороны, моделн трехмерных объектов в базе знаннй могут быть представ- 
лены либо в виде серии 2р-изображений (например, силуэтов), лнбо непосредствен- 
HO в внде крнвых HJIH поверхностей, геометрически выраженных в стандартных 3D- 
коордниатах. С другой стороны, природа анализируемых изображений также влняет 
на стратегию распозиавания. В настоящее время, как правило, используются два TH- 
па изображений: яркостные (20-нзображення) н пространственные (30-изображення). 
Стереоизображения несут и 20 н 30-ннформацню. Таким образом, выбор стратегии 
представления объекта н тнпа изображения приводит к следующим четырем видам 
типам CHCTeN распознавания трехмерных объектов: 

e2D-2D (2)0-изображение, 20-модель) — соответствующие стратегии часто ис- 
пользуются при распозиаванин искусственных сцен; 

e2D-3D (2)-изображение, 30-модель) — популярные стратегии, объединяющие 
описательную силу 30-моделей с недорогими н быстрыми 20-стратегнямн обнаруже- 
ния и идентификации; 

e 30-20 (30-изображенне, 20-модель) — не столь широко распространенные Me- 
тоды. Согласование ЗО-нзображення н 2)-модели достаточно расточнтельно с точки 
зрения использования данных, однако иногда такие стратегни нспользуются, напри- 
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мер, при работе с данными лазериой локации в системах реального времеин. При 
этом на этапе сравнеиня с плановой моделью в системе отбрасываются все даиные по 
высоте объектов, чтобы получить соответствие З)-нзображений 20-моделям. 

e 3D-3D (3О)-нзображеине, ЗО-модель) — методы, ставшие объектом пристально- 
го внимания в последние десятилетия. Дополинтельной проблемой в этой областн 
является проблема получення илн создания трехмерных моделей объектов. 

Первые системы, использовавшие трехмерные модели, были ограничены представле- 
нием объектов в виде цилиндрических нли многогранных моделей. Но такое грубое 
приближеине не дает возможности адекватно H однозначно описывать все необходн- 
мые типы сложных техногенных объектов. Универсальная система распознавания на 
основе 30-моделей должна обладать возможностью создавать сложные объекты, KC- 
пользуя конструктивную стереометрию (примитивные формы H булевы комбинации), 
блоки развертки, профнлирование н т. п. средства, которые нужно точно описать. 

Таким образом, первой из задач. которые необходимо решить при построенин 
системы распознавания пространственных объектов, является разработка модели. 
Суть проблемы разработки модели может быть кратко сформулирована следующим 
образом: в каком виде требуется представлять 30-объекты? Здесь важно понимать 
различие между разработкой моделн и определеинем тнпа представления модели. Ис- 
пользуемые в области машинного зрения тнпы моделей можно подразделить на два 
больших класса: 

1) наглядные, илн реконструктивные — модель может использоваться для того, 
чтобы реконструнровать нскусственное изображенне объекта; 

2) различающие, илн дискриминантные — информация о модели может исполь- 
зоваться, чтобы отличить различные объекты, но не для создания искусственного 
изображения. 

В настоящее время существует иесколько основных парадигм построения моделей для 
распознавания. Большниство нсследователей в области ЗО-распознавання объектов 
решают задачу построения модели одним из трех способов: построенне вручную, 
построеине на прниерах (илн обучение) и адаптация ранее существовавших моделей. 

Построение вручную: оператор строит описание из объекта вручную. Часто это 
описание содержит частные или глобальные геометрические признаки, совместно со 
структурными отношениями между признаками. Chen [288] нзмерял точки поверхно- 
сти H строил по ним трнангуляцию поверхностн. Jain н НоЙтап [289] при построении 
различных моделей использовали утверждения, основаиные на измерении характер- 
ных признаков (например, тип фрагмента поверхиостн, его орнеитацня, плошадь). 
Построение описаний объектов вручную обычно трудоемкое дело н требует деталь- 
ного знания внутренней структуры системы распознавания объектов, для которой 
9TH модели предназначены. Даиный подход мало применим в приложеинях, в KOTO- 
рых распознается большое колнчество объектов нлн имеет место частая смена типов 
ндентифицируемых объектов. 

Построение на примерах: моделн создаются на основе использования признаков, 
автоматически выделяемых H3 реальных нзображеннй объектов, подлежащих моделн- 
рованкю. Например, Jain и Hoffman [289] создавали различные модели объектов из 
базы данных на основании изображеинй 15 различных положений каждого объекта. 
B научно-техинческой литературе описано множество подходов к созданию простран- 
ствениых моделей на основе данных O дальности н яркости [290]-[295]. Connell к 
Brady [296] предложили подход на основе обучающей системы, которая использует 
в качестве примеров яркостные изображения. Отметим, что большниство этих под- 
ходов требует очень подробной H точной регистрации набора изображений объекта- 
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прототипа, чтобы на основе этой зависимой от перспективы съемки информации мож- 
но было построить адекватную трехмерную иодель. 

Адаптация существоваших ранее моделей: используется во многих приложе- 
ниях, особенно относящихся к техническому контролю в промышленности. Автома- 
тизкрованным устройствам (станкам н т. п.) требуется точное представление модели 
будущей продукцин. Если описания модели в существующей базе данных могут быть 
автоматически адаптированы путем оценкн тех HJIH ниых ключевых параметров, то 
потребуется лишь небольшое человеческое участие в создании модели для распозна- 
вания иового объекта. 

Наиболее универсальным HHCTDy MeHTOM для описания H реализации всех перечис- 
ленных типов моделей представляется сегодня единообразная система моделирования 
на основе САО-моделей. 


5.3.1. Трехмерные объекты и САЮ-модели. CAD — компьютерные систе- 
мы ввтоматизированного проектирования, поддерживающие инженерные средства 
пространственного моделировання формы объектов. Такиме снстемы активно исполь- 
зуются в областн промышленного проектирования н производства, а также в обла- 
сти геоннформатикн. Термин «машинное зрение на базе CAD» был введен в [297] 
для исследований, использующих САО-модели для различных задач внзуалнзацни. 
В некоторых системах используются СА Dmoaenn, чтобы синтезировать изображения 
объекта для обучения системы, строящей модели на основе примеров. В других систе- 
мах СА)-моделн являются источинком призиаков, которые в последствие могут быть 
нспользованы в процессе распознавания. В третьих, модели CAD служат основным 
средством описания геометрин объекта. К этим моделям применяют различные виды 
геометрически-логического вывода с целью голучения признаков, могущих оказаться 
полезными в процедурах распознавания объектов. 

Много исследователей в области систем технического зрения, базирующихся на 
CAD, исследовали проблему разработки модели. Так, в [298]-[303] предложено для 
разработки модели использовать различные геометрические объекты. В ряде работ это 
приняло форму автоматического программировання. Goad [303] разработал программу 
распознавания объектов, основанную на отождествленин контуров. lkeuchi [298] раз- 
работал метод генерации программ распознавания на основе заданных САО)-моделей. 
При этом классы проекций определялись, исходя из геометрической модели объекта 
с учетом условий получения изображеиня. Специфический алгоритм распознаваиня 
генерировался для каждого ракурса. Hansen [299], [300] использовал фильтры npu- 
знаков для выбора полезных (характерных) признаков объектов. зизуализированных 
системой CAD. Этн признаки нспользовались для создания деревьев стратегий распо: 
знавания, вычисляющих н уточняющих оценку положення для неизвестного объекта. 

Вместе с тем, этап формирования базы знаний в системах технического зрення, 
основанных на моделях, не всегда ограинчивается выработкой отдельных алгоритмов 
распознавания для различных объектов или нх типовых ракурсных видов. Burns и 
Kitchen предложили нерархическое представлеине для хранения базы данных боль- 
шого количества (сотен) объектов. Характерные модели объектов здесь хранятся в 
виде набора 20-ракурсов, а сходные компоненты ракурсов для различных объектов 
комбинируются в древовндную структуру. Такое нерархическое представление позво: 
ляет понизить коэффициент ветвления на верхнем уровне понска в базе знаний, осу- 
ществляемого при распознавании объекта. Bolles и другне разработали стратегии для 
распознавания путем накопления соответствия по мере перехода от одного признака 
сцены к другому, используя дополнительные признаки (характерные черты) последо- 
вательно с целью все более точной оценки параметров преобразования, определяю- 
utero предполагаемое положение модели сцены. Shneier н другие [304] разработали 
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САО-систему, нспользующую одновременно контуриое H объемное представлення для 
каждой моделн. 

Популярным способом представлеиня объектов для систем технического Зрення 
явилось использование графовых моделей. Engelbrecht н Wahl [305] представляли 
многогранники в качестве атрибутнрованных графов с узлами, представляющими вер- 
шииы миогогранника, и дугами, представляющими гранн. Эта система распознает 
объект, находя изоморфизм между атрибутнрованныин графамн, представляющими 
сцену н один из модельных графов. Fan, Medioni, Nevatia [306] нспользовалн тот же 
подход для изогнутых объектов. DeFigueiredo [307] разработал представление arpu- 
бутированного графа для многогранника, в котором узлы являются сторонами, а дуги 
просто указывают близость. Более обобщенные графовые структуры могут использо- 
ваться для иерархического представления признаков объекта. Walker и Herman [308] 
применили структурный граф — четырехуровиевую структуру, в которой узлы на 
нижнем уровне представляют вершины объекта. Группы вершин формируют грани на 
следующем уровне. Замкнутые контуры состоят из поверхностей, описывающих фор- 
му граней (возможно, плоских), которые затем группируются в объекты. Lu и Wong 
[309] представляют объекты в виде атрибутированных гиперграфов, в которых узлы 
представляют элементарные стороны, грани — граинцы между сторонами, à «гипер- 
гранн» объединяют наборы сторон H ограничивающих граней в объемные примитивы. 

На рис. 5.3.1 дана блок-схема высокого уровня типовой системы распознавания 
объектов, основанной на САО-моделях. Система генерируст список геометрических 
примитивов, описывающих каждый объект. Геометрия объекта описана двумя cno- 
собами. Одио описание основано на каком-либо популярном стандарте CAD (напри- 
мер, IGES). Другое описанне — многоугольная аппроксимация поверхности объекта. 


Рис. 5.3.1. Компоненты САО-системы распознавания 


Модуль сопоставления использует модели системы технического зрения для нден- 
тификации объекта из базы, представленного в неизвестной перспектнве, путем срав- 
нения его графа с графом наблюдаемой сцены. Информация, формнруемая системой 
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логического вывода, может использоваться, чтобы сократить область поиска. Напри- 
мер, еслн все модельные объекты являются многогранннкамн, но только небольшое 
число средн них содержит группы параллельных сторон, а сегментация объемного 
нзображения нензвестного объекта содержит группу параллельных сторон, TO MO- 
дели без групп параллельных сторон будут удалены из рассмотрения на начальных 
этапах поиска. Это пример отношений типа поверхность-поверхность. Дополнитель- 
ные утверждення могут быть сформулнрованы на основе отношений типа край-край 
н поверхность-край, которые также могут храниться в заданном представлении pe- 
ляцконного графа. 

Заметим, что реляционные графы вообще широко используются в областн HC- 
кусственного интеллекта для представлення различного тнпа знаний [124], [296]. В 
нашем случае графы З0-моделей описывают только геометрические (н изредка радно- 
метрические HJIH яркостные) свойства. 


5.3.2. Типы трехмерных моделей. В этом разделе будут описаны нанболее ya- 
сто используемые методы представления ЗО-объектов: CSG, контурное представление 
(КП), объемные методы, наборы проекций н другие. Большинство этих схем представ- 
ления 
использовалось в различиых системах машинного зрения 
для представления трехмерных форм. Также будет описана 
система разработки моделей, объеднняющая возможность 
представлення поверхиостей с coXpaHHeM проекцноино- 
завкснмой информации при построении реляционной MO- 
дели объекта. 

Проволочные модели. Каркасное изображение объекта 
является графом, вершины которого — трехмерные точки 
на поверхности объекта (обычно угловые WIH другие xa- 
рактерные точки) н края графа, соответствующие физиче- 
ским краям объекта. Этн моделн не содержат информацию 
о поверхностях н, следовательно, не полны. Поэтому ЛИШЬ 
немногие системы машинного зрення используют каркас- 
ные представлення в качестве осиовиой формы представле- 
HHA. Рис. 5.3.2. Пример CSG- 

Твердотельная конструктивная стереометрия (CSG). моделей человеческих фигур 
В системе моделировання CSG конечный набор примитив- 
ных форм (от правильных цилиндров, сфер н кубов до бо- 
лее общих форм) объединняется в искомые конструкции на основе использования 
булевых операций. CSG модель храннтся в виде дерева с вершннаин, представляю- 
LIH MH примитивные формы, внутренинми узлами, представляющимн булевы операции, 
к дугами, указывающимн на порядок действий. 

Модели поверхностей. Более мощная альтернатива к CSG представлению — кон- 
турное представление (КП). 

КП может рассматриваться (концептуально) как тройка 


{веер Tarep, Gsrep ) , 


в которой Эвер — набор поверхностей объекта; [Brep — набор пространственных KpH- 
вых, описывающих пересечения между поверхностямн в Веер; а 


GBrep E (Увгер» EBrep) 


— граф, описывающий соседство поверхностей. 
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Поверхностн (т. е. элементы вер) могут представляться различными способамн. 
Используются следующие три нанболее популярных подхода: 
неявная форма представлення поверхности 


5 = (9,2): Дт,у.2) = 0}, 
общая параметрическая представления форма 


5 = {(т,у,2): x£ = fi (u,v), y= (и, ), z= falu, v), (0) єрс R?} 
графическая форма представления поверхиостн 


5 = {(2,у,2):2= Ј(х,у), (х,у) єрс №}. 


Очевндно, графнческая поверхность является частным случаем общей парамет- 
рической поверхности. Проблема подгоики поверхностей к наблюдаемым простран- 
ственным данным может быть решена методами регрессни, в которых используется 
графическое представленне поверхностей. 

Многогранные моделн (в которых элементы S являются плоскостями, а элемен- 
ты Г — лниями) являются самыми простыми контурнымн представлениями. Muoro- 
гранникн также обеспечивают компактность описания, так как они требуют четыре 
скаляра на поверхность. Основной недостаток многограиных моделей — то, что объ- 
екты C кривымн поверхностями не могут быть представлены точно, а многогранные 
приближения (аппроксимации) изогнутых поверхностей не уникальны. 


Рис. 5.3.3, Пример 30-модели городской сцены, составленной из плоских поверхиюстей 


Следующее по сложности представление поверхности — поверхность второго по- 
рядка. Неявные поверхности второго порядка определяются выражением 


$ = {(т,у,2) :aiz? + азу? + азг? + ааху + agxz + авуг + атт + аву + agz + aio = 0} 


н могут представлять многие типы поверхностей, встречающихся в нскусственных 
объектах, например сферы, цилиндры, плоскостн H конусы. ECAH неявиая поверхность 
второго порядка представлена в общей форме, необходимо хранить десять параметров 
для ее восстановления. Однако Goldman [310] отметил, что, если mun поверхности 
квадратичный, то требуется всего лишь пять параметров. Это «геометрическое» пред- 
ставление для квадратичных примитивов позволяет использовать н другое пренму- 
щество иеявного уравнения поверхностей второго порядка. Если апркорно известен 
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тип поверхности, то для получения нанлучшей аппроксимации поверхности второго 
порядка можно использовать нелинейную оптимизацию, в TO время как традицион- 
ные методы нанменьших квадратов не учитывают тип поверхности в процессе ее 
апроксимацин. 

Большинство систем КП на базе САЮ-моделей для представления поверхности 
используют общую параметрическую форму. В частности, система GEOMOD исполь- 
зует поверхности, построенные на неоднородной рациональной функцин В-сплайна 
BHAA 


$-(myz:z-fh(uv), у= fluv), z= (ио), (u,v) є [0,6 x [cd] c Е} 


где 


п т 
57 5 Bir (ш Bj (v) һ:; Рг; 
(Л, Л, f3) = "uir UE E (5.3.1) 
У Y Ви (и) ВЯ (0) hij 
баж 1 jnl 

Здесь п и т — число опорных 4р-точек Р;; = (рг; ;, Pl. р2;;) в направлениях 
параметров и M v (для общего числа пт тощек Р;;); Кн | — степени кривых B- 
сплайна для направлений u иг; В;к(и) — величины полиномнального основания 1-го 
В-сплайна степени k по u (соответственно, В.(о) — j-e основание степени [ по v); 
h,j — веса опорных точек Р;;, определяющие их относительный вклад в форму no- 
верхностн. Если А;; = 1 для всех (i,j), To параметрическая поверхность представляет 
традиционный нерацкональный В-сплайн. Каждый базовый многочлен определяет- 
ся в соответствии с порядком н узловым вектором. В уравнении (5.3.1) узловой 
вектор для многочлена Bj, нмеет п + К элементов (tis... ик) Са={ = =... = 
= tk > ik < 4+2 <... <р =... = tnk = b. Если значения узлов ({1,....ё,+в) рав: 
ноудалены, вектор узла и кривая или поверхность, определяющая ee, называют- 
ся сплошными, в противном случае вектор H кривая или поверхность называются 
несплошными. 

КП-моделн поверхности часто используются в системах машинного зрення, На это 
существуют две основные причины. Во-первых, не все снстемы распозиавания, OCHO- 
ванные на 30-моделях, требуют глубоких функциональных возможностей, которые 
предоставляют развитые системы САО-моделирования. Например, снстемы распозна- 
вания, которые работают исключительно с многограннымн объектами, не требует нс- 
пользования кусочных кривых поверхностей н ограничивающих кривых. Во-вторых, 
популярные представления поверхностей в САР (такие, как тензорный сплайн) интун- 
тивно неясны для многих разработчиков в областн машинного зрення. В этом отноше- 
нии такие естественные поверхностн, как поверхности второго порядка и плоскости, 
зачастую более полезны как примнтнвы моделировання. 

Воксельные модели. Еше один способ представления объекта состоит в том, что: 
бы поместить ero в некоторую систему координат H разделить заннмаемый объем 
на элементарные объемные элементы («примитнвы»), обычно называемые вокселами 
(voxel — volume element) по аналогии c пнкселами (pixel — picture element). В ка- 
честве формы вокселов чаще всего используются кубы илн параллелепнпеды. Если 
нспользуется только один размер воксела, такие опнсания могут занимать большое 
количество места, так как для аппроксимации больших объектов со сложной граннцей 
потребуется большое количество вокселов. 

Суперквадрикн. Одним нз последних дополнений к набору примитивов моделн- 
рования явилось введенне семейства суперквадриков (или суперэллипсондов) твер- 
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дотельных объектов. Форма канонического суперквадрика управляется двумя пара- 
метрами, с, H <2; выражение для точки на каноническом суперквадрнке по широте n 
H долготе W, определяется следующим выражением 


т,у,2) = (cos! n cos*? о, сов“! n sin? w, sin*! n), 
y 


а весь замкнутый объект получается путем изменения П B днапазоне [0,7], w в 
днапазоие [0,2]. Для создания широкого спектра изогнутых npHMHTHBOB исходные 
объемные примитизы могут быть искажены путем изгиба, скручивания н заостре- 
ния. Булевы комбинации суперквадриков могут использоваться для представлення 
достаточио сложных форм. Нанболее «интересные» трехмерные объекты могут быть 
составлены из ряда суперквадричных npHMHTHBOB, размещаемых в общей системе 
координат. 

Заметанне образующими объектами (обобщенные цилиндры). Это один из 
популярных методов представления формы, применимый для объектов, поверхно- 
CTH которых образуются заметанн- 
ем образующкин объектами при ux 
движении относительно одной или 
большего колнчества осей. Остано- 
вимся на объектах, которые npen- 
ставляются как объекты, образо- 
ванные одним заметанием, н пока- 
жем, что для представления чинте- 
ресных» объектов через стандартн- 
зованные частн требуется несколь- 
ко таких объемов. В теории машин- 
ного зрения представления замета- 
ния хорошо иззестны, в частности, 
в форме обобщенных цилиндров 
Рис.5.3.4, Описание сложного объекта c помощью  [311]-[313]. Можно отметить, что 
исрархни «обобщенных цилиидров» (Марр, +Зрение») — описанные выше скелетные пред- 

ставления бниарных фнгур (а так- 
же ленты Блюма и Брока) представляют собой плоские фигуры заметання, то есть 
частный случай моделей тнпа обобщенных цилиндров для плоскостн. 

Объем одного заметання характеризуется 

© осью (которая может быть прямой илн изогнутой); 

• формой поперечного сечения, которая заметает объем при движении вдоль осн. 

Поперечное сечение, вообще говоря. может быть трехмерной фигурой н подвер- 
гаться как переносу, так и вращению, н масштабнрованию илн всем трем операциям 
сразу. Однако в большинстве систем моделирования прнинмается, что поперечное 
сечение представляет собой плоскую двумерную фигуру н что плоскость этой фнгу- 
ры в каждой точке всегда перпендикулярна оси кривой (в случае плоского замета- 
ння последнее условне, естественно, заменяется на условие перемещення в плоскости 
изображення). 

Комбинация нескольких фигур заметания образует пространственный скелет 
объекта. 

Качественные представления. Нанболее традиционные представления, нсполь- 
зуемые в САО-системах, являются по своей природе количественными: стандартные 
поверхности, объемы H T. д. определены в териннах свонх числовых параметров. Ta- 
кие числениые описання необходимы прн производстве, моделировании, техническом 
контроле н ряде других задач машинного зрения, связанных с измерениями. Однако 
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если мы решаем задачу визуального распознавания H объекты, которые нужно pac- 
познавать, могут быть идентифицированы путем проверкн некоторых качественных 
признаков выделенных примитивов (характерных черт), представления, которые фик- 
сируют только этн признакн, также могут с успехом использоваться. Идея такого 
качественного представления была предложена, например, Biederman [314], который 
создал каталог H3 36 тнповых геонов (геометрических нонов), каждый из которых 
имеет уникальный набор четырех качественных признаков: 

1) грани: прямые или нзогнутые; 

2) симметрня: вращення/отраження, отражения, асимметрии; 

3) варнацин размера: постоянный, расширение, сжатие, расширенне/сжатне; 

4) осн: прямые HIH изогнутые. 

Нанболее нитересные ЗО-объекты могут быть описаны рядом соединепных геонов. 
Описана H основанная на краевой ннформации процедура сегментации изображений 
на компоненты геонов, использующая классификацию на локально плоские, выпук- 
лые H вогнутые поверхиостн для обнаружения мест присоедннення геонов. Около 154 
миллионов качественно различных объектов могут быть созданы из трех геонов H 
специальных связей, учитывающих все возможные относительные размеры, располо- 
женне и связи трех компонент [314]. Модели на базе геонов являются достаточно 
уннверсальным, хотя H грубым опнсаймем-трехмерных объектов. Недостаток konnye- 
ственной ниформации ограничивает его примейммость в таких задачах, где проводят- 
ся различия между качественно схожнин, но количественно различными объектамн. 
Если, например, линия автоматической сборки производит «сбор» частей, различаю- 
щнхся только по масштабу, OHH нмели бы ндеитичные представлення в виде геонов, 
а учет отличий между различиымн по размеру предметами был бы невозможен без 
применения дополнительной количественной ниформацин. 

Многопроекционные представления и ракурсные графы. Однн из методов опн- 
сання 30-объектов состонт в том, чтобы описать некоторые характерные HIH даже 
все возможные 20-проекции. Этн проекцин часто называют 20-иаборами или моде: 
NAMH с центрированной перспективой. В некоторых приложениях число устойчивых 
положений, которые может занимать объект на рабочей поверхности, мало. Признакн, 
вычисленные по этим проскциям, могут использоваться в распознаванни на основе 
статистических, синтаксических H теоретнко-графовых подходов [315]. В большинстве 
этих систем различные виды одного н того же объекта хранятся раздельно, так, как 
будто бы это разные объекты. Другие методы представления пытаются объединять 
все эти специфические точки обзора модели в единую структуру данных. Одно вре: 
мя существовал болышой интерес к методам формирования моделей типа ракурсного 
графа как для многогранных, так и для более сложных объектов [316], [317]. Одна- 
ко существует два главиых недостатка формальных методов построения ракурсного 
графа: 

ебольшое время и сложность пространства (для невыпуклого многогранника с 
п сторонами н принятой ортогональной проекцией, существующий алгоритм [318] 
требует O(n?) времени и O(n?) места для вычисления ракурсного графа); 

ө отсутствие реализованных алгоритмов для вычисления ракурсного графа немно- 
гогранных объектов. 

Кроме того, последине нсследовання «формальных» ракурсных графов показалн. 
что HX использование более перспективно B областн визуализации геометрических 
моделей, чем B области распознавания 30-объектов. 

Некоторые исследователи приняли прагматнческий подход к перспектнвно-завн- 
симому представлению [289], [298], [319], [320]. При таком подходе модельные изоб- 
раження объекта синтезируются для каждой типовой точкн H3 некоторой дискрет- 


310 ОБНАРУЖЕНИЕ И ИДЕНТИФИКАЦИЯ ОБЪЕКТОВ ІЛ 5 
ее ААЦ 
ной выборки M набор заданных признаков вычисляется для каждого синтезированно- 
го изображения. Иногда проекции, характеризуемые сходными списками признаков, 
объединяются в единые классы проекционного соответствия, а изображения хранятся 
вместе с этими классамн. 


5.3.3. Геометряческое моделирование трехмерных объектов. 

Требования к моделированию объектов в задачах обнаружения и иденти- 
фикации. В данном разделе будет рассмотрен один из возможных математических 
формализмов 30-представлення твердотельных объектов. Отметим, что в настоящее 
время можно найти достаточно много работ по теорни твердотельного моделирования 
[321] - [323]. 

Пусть метод представления М является отношением, включающим наборы, со- 
держащие твердотельные объекты. Элемент m, Е М является упорядоченной парой 
(0;,8:), где о, Е О — объект (или мпожество объектов), выведенный из набора обь- 
ектов, а зе 5 — представление (модель) о;. выведенное из набора синтаксически 
правильных представлений. Пусть DCO н RC $ будут соответственно объектной 
областью н диапазоном М. Элементы o C(OVD) — непредставнмые в M, а элементы 
s €(SVD) — синтаксически правильные представления без соответствующего физнче- 
ского объекта (они часто называются также недопустимыми представлениями). 

Как только концепция представления выражена математически, возникает ряд во- 
просов относительно Àf. 

e Насколько велико множество D? 

Это позволяет пам оценивать мощность схемы представления. Представление Mi, 
допускающее только многогранникн, менее мощное, чем M», допускающее естествен- 
ные поверхностн второго порядка, поэтому область M, — частное подмножество об- 
ласти Мз. 

e Насколько велнк диапазон 1? 

Если К = S, схема представления не допускает «висящнеь объекты (например, 
объекты с «выступающей» поверхностью). Ввиду того, что трудно вообразить операто- 
ра, преднамеренно создающего такие «висящне» объекты, процедура автоматического 
детектирования и удалення таких моделей была бы полезна в снтуациях, когда OHH 
генерируются компьютером. 

e Являются ли представления полными (однозначными)? 

Представление s является однозначным, если 


(01,3) Е МЛ (02,8) Е М => о = 02. 
Метод M является однозначным, если 
(01,3) Е МЛ (02,3) ЄМ = о =% Voy09€D VscR. 


Если М неоднозначен, представлення не содержат достаточной ниформацни для 
восстановления ЗО-объекта. В системе трехмерного машинного зрения полные модели 
желательно иметь по той естественной причине, что OHH могут быть использованы для 
получения искусственных изображений объекта для разных ракурсов, дальностей H 
условий регистрации (освещенность н т. п.). 

e Являются лн представления уннкальнымн? 

Уникальные схемы являются функциями от О до S, которые удовлетворяют усло- 
BHIO 

(0,81) Е МЛ (0.32) ЄМ = з =з Vo€D, Vs,,s2€ Н. 
В противном случае более чем одно представленне в R соответствует единственному 


физическому объекту. B САО-системах такая ситуация может легко возникнуть, так 
как различные методологии могут порождать один H тот же объект. 
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«Идеальный» трехмерный метод представления данных обеспечивает только обос- 
нованные представлення, являющиеся уникальными н однозначнымн (H следователь- 
HO, B38HMHO однозначными). а также имеет богатую 
область объектов представления. Большинство методов 
30-представлення не удовлетворяют хотя бы одному из 
этнх критериев. Это частично объясняет многообразие 
подходов, нспользуемых исследователями для представ- 
ления ЗО-объектов. 

До некоторой степени специфика стратегин npea- 
ставлення, используемая в разработке модели может Куб 
быть «скрыта» от конечного пользователя моделирус- 
мого программного обеспечения. Многие коммерческие — „висящья»20 
разработчики моделей твердых тел позволяют пользо- поверхность 
вателям стронть объекты, используя технику конструк- 
тивной стереометрин (CSG). При этом внутреннее npea- Рис. 5.3.5. Пример •висящего» 
ставленне твердых тел, как правило, не является CSG- объекта 
представлением, Takum образом, САО-системы obecne- 
чивают множественное представление объсктов в процессе создания для обеспече- 
ния гибкости прн разработке, H B TO жё”врёмя ие при показе H обработке 
данных. Так, например, программное обеспечейие GEOMOD, содержит трн раздель- 
ных представления каждого объекта: 

® контурное представление (КП), в котором кривые и поверхности представлены 
неоднороднымн В:сплайнамни; 

е «С56-подобное» дерево, опнсывающее хропологию создания проекта в терминах 
исходных фигур н действий; 

e многогранное приближенне поверхности объекта (используется для отображения 
объекта в течение цикла разработки). 

Формирование СА)-моделей объектов совместно с ux проблемно-орнентиро- 
ванными опнсаниями. Поскольку мы рассматрнвасм моделирование н распознавание 
объектов на основе САР-моделей в едином контексте, в этом подразделе будут onu- 
сачы геометрические примитивы, моделируемые € помощью САО-систем, вместе со 
свонмн атрибутами и отношениями между примитивамн, которые могут использовать- 
ся на этапе обнаружения н распознавания объектов. 

Пусть описание объекта хранится в виде атрибутнированного реляцнонного графа 


С = (у, є) 
с набором вершин V, содержащим геометрические примитнвы H свойства, причем 
у = ((vi, aj) i= l...,n]), 


v €(ayra окружности, линия, параметрическая сплайновая кривая, плоскость, поверх- 
ность вращення}, где а; — набор свойств, связанных с 1,; здесь свойства — reo- 
метрические параметры отдельной кривой или поверхностн. Набор ребер г содержит 
характерные бинарные отношения между узлами. Бинарные отношения могут быть од- 
нонаправленными (например, отношение наследования между поверхностью вращення 
H ее линейной осью) н двунаправленнымни (например, угол между двумя линнямн). 
Конкретный выбор геометрическнх признаков (свойств н отношений) зачастую Mo- 
тивируется особенностями решаемой задачн. Например, можно в явном виде хранить 
геометрическую информацию, которая наиболее кратко описывает объекты в базе 
данных: векторы ориентации, радиусы н метки тнпа поверхности. Кроме того, эти 
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величины могут быть непосредственно вычислены из данных о дальности: раднусы 
H векторы орнентацин могут быть найдены из главных кривизн H HX направлений 
[324]. Модели могут содержать как независимые от точки наблюдения признаки — 
такне, как абсолютные (раднусы) н отиоснтельные (opHeHTallHH перемычек), так H 
зависимые от точки наблюдения (областн загораживання). 

Выполняемый прн подготовке данных геометрически-логический вывод сначала 
исследует САО-модель с целью вычисления свойств видимостн отдельных узлов. За- 
тем все пары видимых сторон обрабатываются и вычисляются бинарные отношення. 
В заключение набор искусственных видов проекций обобщается н анализируется для 
получения соответствующих ракурсозависнмых признаков для каждой поверхности 
модели. При этом вычисления, связанные с визуальными признакамн, существенно 
превосходят время, необходимое для построения моделн. 


5.3.4. Свойства геометрических примнтивов. Определнм теперь свойства гео- 
метрических примитивов, которые могут использоваться B реляцнонном графе модели 
объекта в качестве узловых. 

Линии и кривые. Линеаменты: сегмент лиини L характеризуется начальной н 
конечной точками: 

І = рр». 


Длина сегмента 
IIZI = lp; — pill 


также вычисляется н сохраняется как свойство узла для L. 

Дуги окружности: дуга окружности А определяется в собственной (центрирован- 
ной} системе координат (га, Ма, Za}, В Которой плоскость дугн является параллельной 
ПЛОСКОСТИ (га, ус). Эта «каноническая» кривая затем преобразуется B центрирован- 
ные координаты моделн матрицей преобразования 3 х 4 (описывающей вращение н 
перенос). Используются пять основных колнчественных признаков описання дуги: 

1) параллельное расстояние 2; вдоль OCH Za между А н плоскостью (ха, yo); 

2) расположение (Tac, Yac) центра А в центрированных координатах AyrH; 

3) расположенне (таз, Уаз) исходной точки А в центрированных координатах дуги; 

4) расположение (zoe, Yae) конечиой точки А B цеитрированных коордннатах дуги; 

5) матрица преобразования RA, отображающая центрнрованиые коордннаты дуги 
к центрнрованным координатам модели. 

При этом возможно вычисление следующих дополнительных свойств для каждого 
пркинтива дуги окружностн: 

® начальные н конечные углы поворота в плоскости (Ta, Уи}; 

e часть круга, образованного вращением; 

® коэффициенты плоскости, содержащей дугу (в центрированных координатах MO- 
дели); 

e радиус дугн; 

e расположение центра дуги в координатах моделн. 

Параметрические сплайковые кривые: любая модельная кривая, которая не является 
отрезком прямой илн дугой окружности, может быть описана в виде параметрической 
кубической сплайновой кривой, возможно, с множественными сегментами. Диапазон 
значений параметра разделяется на подмножества контрольными точкамн, H на каж- 
дом сегменте применяются различные параметрические кубическне кривые (прн этом 
кривые, днапазоны параметров которых являются смежными, должны смыкаться без 
разрывов). Этн кривые нмеют много параметров. Нанбольший интерес представляют: 

e флаг «плоскостностн» (кривая c этим набором флагов находится в плоскостн); 

® число п сегментов кривой; 
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e (п + 1) контрольная точка (#1,..., +1) з пространстве параметров; 
• коэффициенты (т + 1) векторных многочленов, описывающих координаты (7, y, 2) 
для п сегментов, определяемых контрольными точками. 

Сложные кривые: используются для нерархического представления набора кривых 
объекта. Сложная крнвая представляется списком подкривых, каждая из которых мо- 
жет быть кривой любого тнпа из упомянутых выше. Подкривые должны «смыкаться». 
то есть конечная точка первой подкривой должна совпадать с началом второй, и T. A. 

Поверхностн. /740ckocmu: плоский САО-объект /? содержит следующую инфор- 
мацию: 

• коэффициенты: четыре скаляра а, b, сн d такие, что точки в Р удовлетворяют 
условию 


ах + 06у + с = 4, 


причем знаки коэффициентов выбираются так, чтобы вектор (a,b,c) был нормален к 
плоскостн H направлен от описываемого твердотельного объекта; 

®ограничнвающую кривую: указатель на другой объект, описывающий замкнутую 
кривую. включающую Р. 

Важно заметить, что ограничивающая кривая в общем случае может не совпадать 
с гранями объекта, которые ограинчиваютх рассматриваемую плоскую поверхность в 
составе трехмерного объекта. 

Часто при работе с плоскостямн оказывается удобно уменьшить размерность reo- 
метрнческих вычислений до 20. Например, проще решить, что точка находится BHYT- 
рн ограниченной кривой частн плоскости, если коордннаты точки и ограничивающей 
крнвой преобразованы в 20-координаты в плоскости. В связи с этим вычисляются 
два набора параметров для каждой плоскости модели. Сначала находится матрица го- 
могеиного преобразования R, размера 4 х 4, которая отображает 30-точки в систему 
координат «иентрированной плоскости» (Ep, ур, 2р) € Zp = 0 на плоскостн модели. Это 
преобразование определяется на основе четырех коэффициентов а, b, сн d. Ограничн- 
вающий куб для данной области плоскости также рассчитывается в центрированных 
координатах н хранится в модели. 

Поверхности вращения: для поверхности вращения 5 можно выделить следующие 
свойства: 

e указатель Ha ось вращения Lp (линейный объект); 

e указатель на образующую Gg (линия или кривая, врашеннем которой oTHOCH- 
тельно осн порождается даиная поверхность}; 

® начальные н конечные углы поворота образующей. 

Дополнительные свойства, вычисляемые для модели, включают: 

— более точную классификацию поверхностн: 

— цилиндрическая, если Gg — линейная и параллельная Lg; 

— коническая, если Ся — линейная н не параллельная Lp; 

— сферическая, если Gr — дуга окружности, а Ён Проходит через центр дуги; 

— кольцевая, еслн Сп — дуга окружности н Lg не проходит через центр дуги; 

— обобщенная. если Ск — нелинейная H некруглая; 

e ecaH поверхность цилиндрическая, раднус; 

€ ecAH поверхность коническая. расположенне вершины н угол при вершине; 

®если поверхность сферическая, радиус и расположение центра; 

® ориентацию осн вращения. 

Раднус цилиндра задается перпендикулярным расстоянием между Ср и Lg. Вершина 
конической поверхностн вращення определяется пронзведеннем векторов орнентацин 
указателей Сян Ён. Вершина конуса находится на пересечении Gp н Lg. Если S — 
сферическая поверхность, то центр и радиус наследуются из Gg. Кроме того, видимая 
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область S, нидексированная номером точки наблюдения, рассчитывается для каждой 
точки видимой сферы из рассматриваемого дискретного набора. 

Раднусы сферических н цилиндрических поверхностей вращения — полезные прн- 
знаки для распознавания объекта. Поэтому вместе с узловыми объектами B penn- 
цнонном графе трехмерной модели часто вычисляется и хранится соответствующий 
список радиусов. Использованне этих данных на этапе анализа изображения объекта 
позволяет эффективно отбраковывать модели с несходной кривизной noBepxHocTH. 


5.3.5. Отношения между примитивами. (Отношения между геометрическими 
примитнвамн подразделяются на три основные категорин: отношения ориентации, 
отношения близости н смешанные отношения. Отношения хранятся B реляционном 
представлении графа как атрибуты дуг между узламн. 

Отношения ориентации. Ориентация — локальная категория, свойствениая 
непосредственно объекту и используемая в трехмерных системах распознавания объ- 
екта. Особенно ннформатнвна взаимная орнентация сторон объекта (см. табл. 5.3.2). 


Таблица 5.3.2. Геометрические примитивы н атрибуты орнентации 


Примитив 


Лииия Вектор направления 
‚ Дуга окружности Нормаль к плоскости дуги 
Параметрическая сплайновая кривая | Her 


Плоскость Нормальный вектор 
Поверхность вращения Направление оси 
Отношения opHeHTallHH могут быть вычислены для каждой пары геометрических 


примитивов, для которых существует атрибут ориентации. Отношение орнентацин 
для двух ориентированных примитивов prim, и prim;, имеет следующий вид 


Параметр ориентации 


9,, = angle (prim,, prim), 


где Qi; — угол между атрибутами нхориентации. Таким образом, отношение opHeH- 
тации между двумя линиями Дун L — npocqQ угол между ними. Менее интунтивно 
ясный пример — угловое отношение между плоскостью н поверхностью вращения. 
Если нормаль к плоскостн параллельна осн поверхности, то @ = 0. 

Выше был упомянут список радиусов изогнутых фрагментов объекта. Подобный 
список может быть построен H на основе отношений ориентации. Как н в случае спис- 
ка раднусов, цель использования списка ориентаций состонт B TOM, чтобы обеспечить 
накопление свидетельств правдоподобия соответствующей модели для последующе- 
го распознавания. Например, угол между двумя плоскими поверхностямн в сцене 
наблюдения может нспользоваться для того, чтобы осуществить первичный отбор со- 
ответствующих моделей в базе знаний. Наблюдаемый угол в 45? Mor бы заставить нас 
включить в подмножество отыскиваемых моделей все моделн с таким углом между 
фрагментами. К сожалению, не все отношения ориентации в равной степени подда- 
ются распознаванию. Некоторые из существующих моделей могут содержать большое 
количество поверхностей с углами 90? н 0°. Наблюдение такого угла в сцене не 
особенно информативно, поскольку это подразумевает, что мы должны продолжать 
искать все моделн с таким углом. 

Отношения близости. Отношения близости основаны на расстояниях между объ- 
ектамн. Для пар кривых (линий. дуг окружности, параметрических сплайновых KpH- 
вых) отношение близости, как правило, характеризуется максимальным H минималь- 
ным расстояниями между нх точками (т.н. расстояние-интервал). Единственым 
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отношеннем близостн между кривой н поверхностью является следующее: находнтся 
лн кривая полностью внутри конечной поверхностн примитнва. Кроме того, еслн две 
поверхности моделн смежны (то есть их пересечение опредеяет видимую кривую). HM 
приписывается отношение смежности. 

В принципе, возможно ввести отношение близости типа расстоянне-ннтервал для 
nap край-поверхность, поверхность-поверхность H край-край. Для этого могут прн- 
меняться в том числе H аналитические методы. 

Рассмотрим процесс обнаружения минимального н максимального расстояння 
между двумя параметрнческими кубическимн сплайновыми кривымн 


eu(u) = (ти (и), yı (и), 2 (и)) 


о2(0) = (22(0), у2(%), 22(0)). 


Квадрат евклидова расстояния между кривымн (как функция u н v) определяется 
выражением 


D(u,v) = (zi(u) — 22(0))2 + (mlu) — 0(0))2 + (2 (и) — 22(0))?. 


являющимся функцией от двух переменных, Нахождение максимального н мннн- 
мального значений [) определяет TakHe значения (ui, vj), где 2D H 2D равны нулю, à 
якобнан положителен. Как правило, бывает несколько таких экстремальных точек, н 
каждое соответствующее значение должно быть проверено для отбора таких значений 
(wu, и), которые соответствуют внешним нзмеренням. 

Смешанные отношения. Ииеется несколько бинарных отношеннй между геомет- 
рическимн прнмитивамн, таких как идентичность, локализация или соответствие. 

Пример отношения локализации — совпаденне пары плоскостей. Предположим, 
что наша модель содержит видимую дугу окружности и видимую плоскость, которая 
совпадает с дугой (при этом не требуется. чтобы ограниченная плоскость содержала 
плоскость дуги). Отношение 


Совпадает-с (плоскость;, плоскость; ) 


между этими двумя примитивами означает, что OHH нмеют Te же самые геометриче- 
ские параметры, но физические поверхностн этнх примитвов He пересекается. 

Если модельная кривая лежит внутри двумерной ограничивающей квадратной 06- 
ластк (ОКО). то наблюдается отношение лежит-в-плоскости-ОКО. 

Отношения идентичностн выражают нли наследование геометрической информа- 
цин (например, поверхность вращения наследует ориентацию линейного объекта, HC- 
пользуемого как ось), илн полное соответствие между кривымн (например, две линии 
с совпадающими конечными точкамн ниеют идентичное отношение между собой). 

Отношения соответствия используются для разметки сходных поверхностей вра- 
щення (сходных по тнпу, раднусу или типу н радиусу). 

Отношения более высокого порядка. Выше былн рассмотрены атрибуты отдель- 
ных примнтивов (унарные отношения) н бннарные отношення между napaMH npu- 
митивов. Аналогичным образом можно определить тройные отношения илн отноше- 
ния более высокого порядка, особенно для случая многогранных объектов. Hanpu- 
мер, в случае блочных структур, допускающих присутствие трехгранных объектов, 
нспользованне тройных отношений могло бы оказаться очень полезным в процессе 
распознавания (еслн удается обеспечить надежное обнаружение H точное H3MepeHHe 
углов). Отношение угла для многогранника может быть получено путем обнаруже- 
ния совпадающих конечных точек линейных примитивов. «Углы» также существуют 
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для некоторых изогнутых объектов. Однако полезность точных отношений на базе 
улов ограничивается проблемамн обнаружения таких признаков в реальных данных. 
Поэтому, если при построении системы обнаружения исходить H3 приоритета надеж- 
ности, можно сделать вывод о большей ценности граней по сравнению с угламн, так 
как они могут быть более легко и надежно получены из набора реальных данных. 
Кроме того, углы менее стабильны, чем грани, так как небольшие изменения гра- 
ниц сегментации на изображении могут существенно изменить расположение любого 
углового признака, 


5.3.6. Признаки, зависящие от точки наблюдения. Некоторые системы рас- 
познавання классифицируют объекты, сравнивая наблюдаемую сцену с «тнповымн» 
вндамн из базы данных безотносительно к описанию модели. При этом возникает 
целый ряд вопросов. Как выбирать репрезентатнвные ракурсы (точки наблюдения)? 
Как вычислять признаки для каждой точки наблюдения? Сколько точек наблюдения 
«достаточно» для описания конкретного объекта на нзображенни от конкретного дат- 
чнка в конкретном приложении? Однозначных ответов на этн вопросы He существу- 
ет. Поэтому интеграция зависимых от точки наблюдения признаков с незавнскмыми 
обеспечивает существенные прнемущества по сравнению с использованием каждого 
H3 этих наборов признаков отдельно. Основным источником геометрического знания 
об объектах при таком комбинированном подходе является САР-модель, а описание 
поверхностей в модели дополняется с учетом информации, зависящей от точки Ha- 
блюдения. 

Рассмотрим с практической точки зрения построение признаковых структур, завн- 
сниых от точки наблюдения. Пусть выбран набор точек зрения на сфере наблюдения, 
который обеспечивает осуществление почтн однородной выборки из этого конечного 
пространства. Тогда для каждой точки наблюдення в этом наборе можно получить 
синтетическое изображение объекта совместно со структурой сегментациии изобра- 
ження, связывающей каждую точку изображения с соответствующей точкой в CAD- 
модели. Эти данные могут далее нспользоваться для вычисления полезных признаков, 
завнсящих от точки наблюдення. 

В дополнение к описанию объекта может быть создан вспомогательный файл в 
внде универсальной картотеки, содержащей большое количество информации об 06b- 
екте: историю его создания, ряд других геомеТРических H технических данных. Средн 
этнх технических данных может находиться список трехмерных многоугольников, KO- 
торымн аппроксимируются поверхности объекта. Во время процесса проецирования 
необходимо обеспечить возможность загрубления многоугольного приближения до 
любой желаемой точностн. 

Представим модель такой апрокснмацин. Пусть объект О представлен списком 


O - (Mi... Ma), 


где каждый элемент М; представляет отдельную поверхность моделн. 
Общий список точек 


Р= (pi... 22) 


содержит все трехмерные точки, служащие вершинаин плоских граней npu аппрок- 
симации. Каждая поверхность М; далее разлагается в список многоугольных граней 


M; = Uns fin) 


где f, являются сторонами, а п; — число граней B моделн поверхности. Каждая 
грань определяется набором вершин — здесь нспользуются индексы точек B списке 
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точек Р: 

Jj = (6...6, 
Такнм образом, формируется нерархнческая структура объекта: объект стронтся из 
поверхностей, каждая поверхность строится из набора граней, каждая грань стронтся 
из 30-точек. Общий список точек гарантирует, что информация о связности не будет 
потеряна при преобразованиях объекта. 

Когда требуется получить новое нзображенне, список точек P трансформируется 
(поворачивается) в соответствии с желаемой точкой наблюдения. Затем к каждо- 
My многоугольнику применяется соответствующая обработка, например, «сканирую- 
щее преобразование многоугольника» [325]. Сканирующее преобразование отдельного 
многоугольника выполняется путем нахождения минимального объемлющего прямо- 
угольника изображення, занятого преобразованным многоугольником, после чего осу- 
ществляется последовательное заполнение пнкселов внутри этой области в соответ- 
ствии с модельной ниформацией о дальностн н текстуре поверхности. Одновременно 
модифицируется вспомогательное «меточное» изображение: в каждый пиксел сканн- 
руемой областн записываются метки (идентификаторы) номера поверхностн модели, 
соответствующей сканнруемому многоугольнику. В результате одновременно формн- 
руются anpokcHMauHs многогранника для заданного 30-объекта н ero сегментирован- 
ное изображение. 


5.3.7. Литература для самостоятельного изучения. В книге (Шапиро, Сток- 
ман) [49] данной тематике посвящена глава 14 «Трехмерные моделн. Распознава- 
ние объектов на изображениях на основе моделей». Изложение матернала достаточно 
краткое н энергичное, содержанне в целом соответствует данному учебному курсу. 
Глава 14 книги [49] может быть рекомендована для быстрого самостоятельного озна- 
комлення с тематикой (например, перед экзаменом или зачетом). 

Книгу (Форсайт, Понс) [44] вновь следует отметить как наиболее полный н Bce- 
объемлющий на сегодня путеводитель по методам машинного зрення верхнего уровня. 
Этой тематнке посвящены V н VI части данной книги. Непосредственное отношение 
к обсуждаемым в данном разделе нашего курса методам имеют главы 18 «Зренне 
на основе моделн», 19 «Гладкие модели и ux контуры», 20 «Аспектные графы», 21 
«Дальностные данные», 23 «Распознавание через связь шаблонов», 24 «Геометриче- 
ские шаблоны через пространственные связн». Часть матернала в этих главах pac- 
крывает темы, кратко описанные в нашем курсе, другая, большая часть дополняет HX 
совершенно новыми ндеями н подходами. В частности, это касается глав 19, 20 и 21. 
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5.4. *Обнаружение и идентификация объектов на основе их структурных 
описаний 


5.4.1. Построение реляционной модели на основе САО-модели. Рассмотрим эту 
задачу на примере построения так называемой перспективно-независимой реляци- 
онной модели VIRM (view-independent relational model) [326], [327], автоматически 
восстанавливаемой по проволочной модели объекта, заданной в виде стандартного 
САО-описания. При помощи такой У1В М-модеди можно организовать распознавание 
трехмерного объекта с четко выраженнымн контурамн по его двумерному изображе- 
нию в составе сложной сцены с нензвестным заранее окруженнем. 

VIRM представляет собой взвешенный гиперграф с соответствующими геометри- 
ческими связями между элементаин. Beca гиперребер такого гнперграфа, описываю- 
щие совместную встречаемость различных компонентов (элементов) объекта, исполь- 
зуются для генерации H упорядочивання гнпотез о типе, локализации H позициониро- 
ванин наблюдаемых объектов. Геометрические ограннчення, связанные с гиперребра- 
мн, используются для сокращения дерева вариантов в процессе поиска в пространстве 
гипотез. Коиструнрованне такой модели состонт нз следующих трех этапов: 

1) конструнрование узлов гнперграфа H их атрибутов; 

2) копструнровапие ребер H их весов; 

3) конструнрование геометрических ограничений. 

В рамках опнсываемой процедуры [327] все три этапа осуществляются автоматиче- 
ски на основе статистического анализа набора синтетических проекционных нзоб- 
ражений, полученных из исходной проволочной трехмерной моделн. При этом объ- 
ем памяти, необходимый для хранения готовой реляционной модели, сравнительно 
невелик, а в вычислительном отношении метод оказывается достаточно эффективен 
за счет использования встроенных геометрических ограничений, снижающих число 
возможных гипотез при верификации модели. Метод легко может быть применен к 
любым техногенным объектам, описанным в виде СА)-иоделей. Частичное загоражн- 
вание объектов H наличие нескольких объектов на изображении не является помехой 
при работе данного алгоритма. 

Следует отметить, что распознавание на основе У1ВМ-моделн не всегда позволяет 
однозначно отождествить наблюдаемый объект, поскольку данная модель является 
не столько количественной (в измерительном смысле), сколько качественной. Однако 
такая реляционная модель обладает несомненными пренмуществами, еслн нспользу- 
ется для того, чтобы на основе группировкн элементов контурного препарата изобра- 
ження оценить тип объекта н породить некоторое количество обоснованных гипотез 
относительно его положення, орнентацин н размера. После этого задача точного опре- 
деления этих параметров может быть решена уже непосредственно путем привязки 
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к изображению исходной САО-модели, обладающей необходимыми количественными 
геометрическими характеристикамн. 

Входнымн данными для построения VIRM являются проволочные САО-моделн, 
используемые в современных системах САПР. Выходные данные представляют собой 
тройку М = {У,С,С}, которая, соответственно, включает 

1) Набор образующих элементов У с описанием ux типа н формы, а также с 
указаннем возможных соответствуюших им реализаций элементов двумерного изоб- 
раження. 

2) Матрицу совместной встречаемости G, описывающую возможность (вероят- 
ность) одновременного появления нескольких элементов из V на одном проекционном 
изображении. 

3) Набор геометрических ограничекий C, каждое ux которых связано с парой 

совместимых (совместно встречаемых) элементов из У н penpeseHTHpyeT некоторые 
сведения о взанмных пространственных отношениях между соответствующимн эле- 
ментамн моделн. 
Первые два компонента (V н С) формируют гиперграфовое представление VIRM. 
Гиперграф при этом определяется как упорядоченная пара Н = (Х,Е), где X = 
= (21,..., 24) — набор вершин (узлов), а Е = {е1,...ет} — набор гиперребер такой, 
что е, # 0, i = 1... m M Ще; = X. При этом, если |е;| = 2 (т.е. e; объединяет две 
вершины) гиперребро е; назывется просто ребром; в противном случае (|е;| = k > 2) 
оно называется ребром k-ro порядка (К-ребром). 

В описываемом случае при построении гиперграфа используются только 2-ребра н 
3-ребра. 

Пространственное проецирование проволочной модели, Построение VIRM на- 
чинается с получения репрезентативного набора модельных нзображений объекта пу- 
тем проецирования проволочной САО-модели на модельную плоскость изображения. 
Прн этом точка обзора случайным образом перемещается no сфере наблюдения ра- 
диуса R. Значение раднуса А в данном случае не имеет принципиального значення, 
поскольку определяет лишь количественные размерные характеристики проекций, но 
не их геометрию H топологию. Таким образом, положение точкн обзора определяется 
только двумя угловыми параметрами fw, ), которые случайным образом разыгрыва- 
ются соответственно в днапазоне (0 < ф «2700 < 0 < m). В результате формируется 
некоторое достаточно большое число модельных проекций объекта п. 

На каждой из модельных проекций фиксируется положение модельных 2D- 
контурных элементов 

Si = {spsk h i-1..,n. 


где зі представляет собой проекцию модельного 30-контурного элемента ок на i-e 
модельное изображение. [pu этом нспользуется представление контурных элементов 
в виде полилиний (polyline). 

Различаются следующие типы полилиний: 

1) сегменты (отрезки прямых линий), опнсываемые свонми концевыми точкамн 


(21.01), (22,92), 


причем всегда предполагается что (т; < z2) uan ((zy = 22) и (yi < y» 
2) прямоугольники, описываемые соответствующим набором вершин 


(zi 1), (22,32), (23,33), (24,0) == (Pi: P2: P3; ра), 


где все точки p, перечислены B порядке обхода по часовой стрелке (в плоскости 
изображения); 
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3) незамкнутые И-кривые, также опнсывемые как 


рь = (21,51). (22,22), (73,93), (T4, Y4) = (Pi. P2, P3: Ра), 
где все точки p, перечислены в порядке обхода по часовой стрелке (B плоскости 
изображення). 
После проецировання проволочной модели для п различных точек положення «вир- 
туальной камеры» мы получаем n соответствующих наборов 20-контурных элементов 


x= {ыы 


Каждый набор S, представляет собой подробное опнсанне того, как выглядит моде- 
лируемый объект с соответствующей 1-Й точки зрения. 

Анализ совместимости элементов модели. Вообще говоря, возможность одно- 
временного наблюдения на изображении любой произвольно выбранной пары эле- 
ментов модели является, очевидно, функцией положения точки обзора. Однако прн 
определенных условиях некоторые группы элементов встречаются совместно чаще, 
чем другие. Так, например, элементы, соответствующие изображению одного бор- 
та автомобиля, практически всегда встречаются на изображениях вместе и в то же 
время никогда не встречаются вместв.с изображеннямн элементов другого ракурса 
той же машины. Технически частота совместней встречаемостн элементов модели на 
изображениях может быть оценена статистически путем соответствующего анализа 
полученного ранее набора модельных проекций. При этом можно анализировать не 
только частоту попарной встречаемостн элементов, но и частоту совместной встреча- 
емости групп элементов (кластеров), содержащих более двух элементов. Эти оценки 
частот далее нспользуются при формнрованин весов соответствующих ребер н гипер- 
ребер гиперграфа VIRM. 

Попарная совместимость элементов и ее графовое представление. Попарная 
совместимость элементов определяется условной вероятностью обнаружения на нзоб- 
раженин некоторого j-TO элемента при условии что 1-й элемент там уже зафиксирован. 
Пусть дана пара элементов модели (о;.о,}, рассматриваемых относнтельно п различ- 
ных проекций модели. Пусть также количество изображений, на которых виден эле- 
мент Oi равно Tij. а количество нзображеннӣй, на которых виден элемент о, равно nj; 
Nij — количество изображений, на которых элементы о; H о; видны одновременно. 
Тогда p(o;/oi) = ni;/n;— условная вероятность паблюдения 2)-элемента fz в при- 
сутствни 2р-элемснта Л на том же изображении. Чем больше значение р(о;/0:), тем 
выше вероятиость встретить оба эти элемента одновременно. Таким образом, матрице 
совместной встречаемости пар элементов вида 


A2(i, j) = pto;/oi) 
соответствует следующий набор ребер гнперграфа 
E» = {(0+,0;) :р(0;[о) > рі) > 0). 


Каждому такому ребру приписывается вес, равный соответствующему значенню 
условной вероятности. 

Групповая совместимость элементов и ее графовое представление. На практн- 
ке условия попарной совместимости элементов, как правило, не налагают на струк- 
туру объектов достаточно сильных ограничений, которые позволили бы с определен- 
ной уверенностью судить об HX положении и ориентации на изображении. Поэтому 
рассмотрение совместимостн необходимо расширить на случай групп (кластеров) эле- 
ментов модели. 
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Рассмотрим кластер из трех точек. Такие кластеры можно формировать на основе 
выделенных ранее пересекающихся пар. Тогда любой сформированный таким обра- 
зом кластер {(0;,0;,ок)} будет содержать по крайней мере две пары. По аналогии 
с введенной ранее оценкой совместимости Аз, количественная мера совместимости 
З-кластеров точек может быть выражена следующим образом: 


Aa(i, 3) = plor! (o;,o;)). 


Ей соответствует следующий набор З-ребер гиперграфа: 


E3 = ((0i.05. ок) : plox /(0:.0;)) > D3:nin > 0}. 


Конструирование геометрическях связей между элементамн. В данном подхо- 
де [327] рассматриваются только те пространственные отношения между элементамн 
модели, которые являются в достаточной степенн независимыми от положения точки 
обзора. 

Хотя большинство геометрических признаков объектов являются существенно 
проекцнонно-зависимыми, можно выделить ряд таких отношений между элементами, 
которые от изменения относительного положения и ориентации объекта практически 
не зависят. Это: параллельность, колинеариость, «отношение стороны» н относитель- 
ный размер. Колинеарность отрезков строго сохраняется при проективных преобра- 
зованиях в пространстве. Лараллельность прямых NPH проективных преобразованиях 
также сохраняется (за исключением вырожденных случаев). «Отношение стороны» 
подразумевает утверждение о TOM, что некоторый злемент «находится справа» или 
«находится слева» по отношению к данному. Это отношенне, вообще говоря, не явля- 
ется совершенно независимым относительно положения камеры, однако оно меняется 
на противоположное одновременно для всех совместимых кластеров элементов, то 
есть постоянным является не само отношенне стороны для двух элементов, а более 
сложные отношения типа «отношение стороны для кластера а совпадает с отноше- 
нием строны для кластера b». Наконец, относительный размер — характеристика, 
которая наиболее снльно меняется в Зависимости от позиционирования, орнентацин H 
ракурса объекта относительно камеры. Кроме ого. на зту характеристику, очевидно, 
влияет фокусное расстояние, угол обзора и другие параметры сенсора. Однако если 
отношение фокусного расстояния к дистанции съемкн мало, а сам объект при этом 
не слишком велик, изменение размеров элементов модели пронсходнт до определен- 
ной степени одинаково (согласованно), вследствие чего отношения их длин примерно 
сохраняются. 


Отношение параллельностн. Отношение параллельности для любых 
двух прямолинейных сегментов [аб] н [cd] можно определить следующим образом: 
Гресли (сегменты [ab] и [ed] пересекаются) то parallelratio ([ab].'cd]) = 0; 
2)если (проекция сегмента [ab] на прямую (cd) н сегмент [cd] ке пересекают- 
ся) н (проекция сегмента [cd] на прямую (ab) н сегмент [ab] не пересекаются) то 
parallelratio([ab].[ca]) = 0; 
пин (а d Lulu) 


З) в протизном случае — parallelratio ([ab],[cd]) = гах“) 6080. 
где la — расстояние от точки а до прямой (cd); lj — расстояние от точки b до прямой 
(cd); le — расстояние от точки с до прямой (ab); {1 — расстояние от точки d до прямой 
(ab); 9 — угол между прямыми (ab) и (cd). 

Определенное таким образом отношение parallelratio принимает свон значения на 
отрезке [0,1], причем равно | только в том случае, когда отрезки [ab] и [cd] строго 
параллельны. 
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Данное отношение можно распространить на случай сравнения отрезка H полилн- 
нии (например, прямоугольника HNH (-образной линии). При этом рассматривается 
отношение parallelratio между данным отрезком H каждым сегментом полилинии. При 
сравненни двух полилиний рассматриваются взанмные отношения параллельности 
между всеми HX отрезками попарно. 


Отношенне колинеарностн. Отношение колинеарности для любых 
двух прямолинейных сегментов [ab] н [cd] определяется следующим образом. Пусть 
аб] > |са]. Стронтся минимальный объемлющий прямоугольник ABCD такой, что 

e ABCD содержит [ab] и [са] 

® сторона АВ параллельна [ab]. С использованием значений ш = |AD| н h = |CD]. 
вводится следующее отношение: 

ө если (А/ш > 1), то colineratio([abj,[cd]) = 0; 

ө если (h/w < 1), то colineratio([ab].[cd]) = |(1 — *) cose]. 
где Ө — угол между прямыин (ab) и (cd). 

Это эвристическое определение дает приемлемую оценку степени колинеарности 
двух отрезков. Значение этого отношення также изменяется в пределах [0,1] н равно 
1 только в том случае, когда отрезки действительно расположены на одной прямой, 

Отношеннке стороны. Отнащецие стороны для точки Р относительно opu- 
ентироваиного отрезка [ab] определяется следующим образом. Пусть v — вектор от а 
к b. Точка P назывется лежащей слева (справа) от отрезка [ab]. если она находится 
слева (справа) от вектора v. При этом отношение «находиться слева (справа) от векто- 
ра» у определяется положительным (отрицательным) знаком векторного произведения 
"м. хм), где W — вектор, направленный or ак P. 

Полилиния находится слева (справа) от данного направленного отрезка, если 
все ее точки находятся слева (справа) от данного отрезка. Если данная полилиния 
f содержит n, точек, находящихся слева от отрезка [ab], и п; точек, паходящихся 
справа от отрезка [ab], то отношение стороны описывается следующим критерием: 


: non 
sideratio([ab], f) = =_=, 
nyi + п 
Значение этого критерня изменяются в днапазоне oT – 1 до +1, причем — І соответ: 
ствует введенному ранее определенкю отношення «лежать справа»; +1 — отношению 
«лежать слева»; а 0 не соответствует ни одному из этих отношений. 


Относнтельные размеры. Относительный размер используется только 
для характристики пар элементов, содержащих по крайней мере одну двумерную 
группу (20-полилинию). В результате перспективных преобразований (в некотором 
фиксированном конусе углов обзора) максимальная длнна видимого элемента на H306- 
раженин группы (T. н. «псевдовысота» группы) должна оставаться стабильной OTHO- 
сительно длин других элементов и расстояний между HHNH. 

Относительный размер г двух двумерных групп элементов определяется как 
отношение расстояния между ними к максимуму их псевдовысот. Расстоянне Mex- 
ду группамн элементов определяется как минимальное расстояние между точками 
составляющих HX полилиний. 

Реализация набора геометрических связей. С использованием введенных отно- 
шений между элементами изображения каждой дуге (ребру, группе ребер) runeprpada 
может быть поставлен в соответствие список процедурных геометрических ограни- 
чений вида 


Ci, = (pij.ci lu. rij) 


где 
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pi; = (paralle:ratio(V;. Vj) є [parallelratio nm, parallelratio,,, .]); 

cij = (colineratio(V;, Vj) € [collneratiomm ,colineratlomax]); 

lij = (sideratio(V;, Vj) € [sideratiomi,, sideratio max]); 

rij = (sizeratio(V;, Vj) € [sizeratiomn. ѕігега(іогах|). 

Минимальные н максимальные допустимые значення здесь формируются Hà oc- 
нове статистического анализа набора модельных изображений. Процедурные геомет- 
онческне ограничения — предикатамн, нмеющимн два входных параметра (две срав- 
ниваемые полилкнин) H одно выходное булевское значение («истнна» илн «ложь»). 
В процессе обнаружения H ндентификации объекта этн преднкаты определяют соот- 
ветствие элементов реального изображения и заданного элемента модели. При этом 
для каждой пары модельных элементов этн значения уже предвычислены на этапе 
обучения. 

Таким образом, на основе САО)-модели может быть автоматически сформировг- 
на графовая реляционная модель. Далее задача сводится к задаче сравнения таких 
моделей. 


5.4.2. Сравнение графовых реляционных моделей объектов. Стандартное 
представление в виде семаятических сетей. В данном разделе мы будем расмат- 
ривать семантическую модель (сеть) С, представленную двумя MaccHBaMH V н А, 
где массив У содержит имена вершин, а массив А содержнт начальную вершину, 
конечную вершину H имена дуг: 

У: М ~ 5, 


A:N x N ^ SU (e), 


где N = (1,...,nobj) — множество индексов для вершин; 5 — конечное непустое 
множество нмен; е — специальный символ, не принадлежащий 5, означающий «дуг 
нет». 

Такое представление дает возможность создавать программы для выполнення 
необходимых операций на семантической сетн. Например, следующий алгоритм ищет 
все отношення (или имена дуг), включающие в себя объект с ниенем obj-name. 


all-relations (0bj-name) 


begin 
for i = 1 to nobj 
begin 
if V[i] = obj-name then key = i 
end; 
for i = 1 to narc 
begin 


if A [1, start] = key then print (obj-name, V [A (i, end]l|, У[1)]); 
if A [i, end] = key then print (V [А [1, start]], obj-name, V [Т)); 
end 

end. 


Задачу сравнения графов для семантических моделей можно формально поставить 
следующим образом. Пусть G'(V', A') и G(V, A) — два помеченных направленных 
графа, определенных. как указано выше. Необходнио найтн взаимно однозначное 
отображение такое, что 

1) для всех ів N’, V'[i] 2 V[T (3)] (соответствующие вершины имеют одинако- 
вые имена}, 

2) для всех i,j в №, ecan A'[I'(i),1(7) не равно e, ro A'[i,j] = AIT (i), T (j)! 
(соответствующие дуги имеют одинаковые имена). 
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Здесь любая дуга-переменная может отождествляться с любыми элементами, кро- 
ме е. В случае нестрогого сравнения знак равенства следует понимать более свободно. 
Например, может быть определенная мера сходства на 5 такая, чтс пока два имени 
достаточно похожн, они считаются совпадаюшимн. 

Сравнение подграфов в общем случае может быть выполнено методом понска с 
возвратом. Отождествнм все нмена в V, не являющиеся переменными, C ниенамн B 
У. Поскольку это предполагает, что все HMeHa вершин уннкальны, все константы в У’ 
должны отождествиться с соответствующими константами в V. Тогда остаются толь- 
ко имена переменных в У’, обозначенные, как У’ - $. Заменим переменные имена 
один к одному и проверим непротиворечивость полученных значений, используя п.2. 
Другими словами, кмена дуг должны также отождествляться. Когда есть несогласо- 
ванность, отказываемся от такой замены переменных, чтобы попытаться нспользовать 
другую подстановку. EcaH нмена вершин неедниственны, мы должиы попробовать все 
комбинации. 

Алгоритмы сравнения графов. Задача сравнения подграфов имеет много ва- 
рнаций. Если рассматривать нестрогое сравнение, то не обязательно сопоставлять 
одннаковые имена вершин н одниаковые имена дуг. Некоторые вершины также MO- 
гут HC иметь тождественных вершин. Поэтому используется некоторая мера качества 
сравнения, определяемая, например, следуюшим образом: 


Цена _сравнення = S ^ COSTN(V"[i] (7(4])+ 


+ Y:COSTA(A'li], A[TG), T()]) + 9 ; COSTM'(V'[i]) + У COSTM(V[]), 
J 


uj i 


rae COSTN — цена сравнения двух подобных вершин, иногда называемая «ценой 
шаблона», COSTA — цена сравнения двух подобных дуг, иногда называемая «ценой 
перехода». COSTM' и COSTM являются ценами «отсутствующих вершни». Могут 
быть несколько вершин в С”, которые нельзя отождествить с вершинамн в С. Могут 
быть также несколько вершин в G, которые нельзя отождествить C вершннамн в С”. 

Если сделать COSTN н COSTA бесконечными, т.е. потребовать точного совпаде- 
ния вершин н точного совпадения дуг, но допустить отсутствие некоторых вершин 
прн сравненин, то «лучшим сравнением» окажется то сравнение, которое MHHHMH- 
зируст цену отсутствуюших вершин, или, что равносильно. которое MaKCHMH3Hpyer 
число правильных отождествлений. 

Еслн сделать COSTM' н COSTM бесконечными, т. е. не допустнть отсутствия вер- 
шин в G’ или С, то задача сравнения подграфов становится задачей сравиеиня полных 
графов. Если сделать величину COSTM' бесконечной, то для успешиого отождеств- 
лення С’ должен быть полностью встроен в С, а это H есть задача строго сравнення 
подграфов. В самом общем случае все функции цен COSTN, COSTA, COSTM' u 
COSTM конечны. Это общая относительная задача сравнения. 

Сравнение графов может быть пронзведено путем построения вспомогатель- 
ной структуры данных, называемой графом соединений. Постронм граф соедн- 
нений С” = Ye следующим образом: V" = ((4,j):i € N,3 € N',V[i] = V'j]). 
A" = (001,30), 02. 32)) : (1,31) (2.32) € V", Api ia] = Ал, 2] } Другими словами, V" 
есть множество всех возможных сопоставлений между вершинами. А” есть множе- 
ство всех сопоставлений совместимых вершин. Задача «нанлучшего сравнення» в CNY- 
чае бесконечных COSTN н COSTA заключается в нахожденин самого большого MHO- 
жества сопоставлений совместимых вершин. Это равносильно поиску максимальной 
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клики (связного подграфа) в графе соединений G”, не являющейся подмножеством 
множества вершин другой клнкн. Алгоритм поиска клик приводится ниже. 


clique-finding (G'') 


begin 
LISTe(); 
while there are changes in LIST do 
begin 
for every X in LIST do 
begin 
Y = V''-X; 


for every y in Y, if y is connected all x in X 
then put X |J (y) back into the LIST; 
end 
end 
end. 


Необходимо отметить, что в алгоритме поиска клик при каждой итерации необходимо 
удалять из LIST повторяющиеся решення. 

Обобщеннем клик является г-связанный компонент, который определяется как 
подграф, в котором каждая вершина связана по крайней мере c г другимн вершинамя. 
Клика с п вершинами есть (л — 1)-связанный компонент. Нахождение г-связанных 
компонентоз пачинается с нахождения всех клик с т + 1 вершинамн. Когда в кли- 
ки, используя предыдуший алгоритм, добавляются повые вершины, дополинтельно 
требуется, чтобы новая вершина была связана C г-вершинами. 

Для общей задачи сравнения в графе соедннений каждая вершина имеет цену 
(COSTN) и каждая дуга нмеет цену (COSTA). Когда находим клику (г-связанный 
компонент), одновременно подсчитываем ее цену. Клика с нанменьшей ценой выбира- 
ется в качестве «лучшего сравнення». 

Методы сравнения графов могут быть также обобщены для сравиення графов с ат- 
рибутами. При этом, как было опнсано выше, объекты и отношения могут иметь MHO- 
жество атрибутов вместо одного нменя. Соответственно процедура сравнения кмен 
заменяется процедурой точного или неточного сравнения наборов характеристических 
атрибутов. 

Индексация графовых моделей. При индекснровании (нанесении меток на rpa- 
фы) исходный граф сопоставляется с графом модели (эталонным графом) или набором 
графов моделей. 

Общая постановка задачи индексирования состоит в следующем. Дано множество 
объектов. множество отношений между объектами, множество меток и множество 
ограничений. Цель заключается B присванвании метки каждому объекту Tak, чтобы 
ограничения не были нарушены. Такая задача нанесения меток называется задачей 
непротнворечнвого (согласованного) нанесения меток. 

Чтобы найти непротнворечивую функцию нанесения меток L, в простейшем cay- 
чае можно использовать метод полного перебора по дереву. Процедура понска c 
возвратом здесь выглядит следующим образом: 


consistent-labeling(i) 
begin 
for j == i to nlabel 
begin 
if label-j can be assigned to object-i and 
label-j is consistent with previous assignment and 
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consistent-labeling(i*1) is "true" 
then begin assign label-j to cbject-i; 
return ("true"): 
end; 
return ("false"); 
end. 


Другим способом является индексирование c релаксацией. Вначале каждое NHOXC- 
ство Gi, содержит множество меток, совместимых с объектом i. Затем проверяется, 
могут ли определенные ограничения привести к сокращению числа элементов множе- 
ства G,. Нижеследуюшая процедура одного шага релаксации вызывастся столько раз, 
сколько потребуется, чтобы изменения в иножествах меток перестали происходить. 


relaxation-labeling(G) 
begin 
for i * 1 to nobject 
for j= Iton 
begin 
if label-j is in Gi and inconsistent 
with all labels in another set Gk 
then label-j is removed from Gi 
end 
end. 


Кроме описанных детерминнрованных алгоритмов существует также класс алгорит- 
мов вероятностного индексирования. Часто такие алгоритмы являются алгоритмами 
случайного поиска, в которых начальное приближение разыгрывается случайным об- 
разом, а затем пронсходит его итератнвное улучшенне. 

Пусть для каждого объекта i величина Г+(т) является оценкой вероятности TO- 
го, что метка m соответствует объекту i. Попытаемся установить вероятность Р;(т) 
методом итераций. Еслн прн этом величины Р;(т) сходятся к определенным зна- 
ченням, мы сможем указать для каждого объекта i метку и, которая соответствует 
нанбольшей вероятности Р;(т). 

Различные алгоритмы случайного нанесения меток используют различные способы 
коррекции Р;(т). Центральная unes здесь заключается B том, чтобы оценить матрицу 
совместимостн [Р,;(т/п)], где Р, (т/п) является весом (или вероятностью) того, что 
объект i имеет правильную метку m, еслн объект j нмеет метку n. Еслн присванвание 
метки m объекту i противоречит ограничениям, то 1%; (т/п) должна быть близкой к 
нулю, н наоборот. Для нтеративного определения Р;(т) можно использовать формулу 


Р(т) = 376, | У P(m/n) Рп) |. 
j n 


Внутренняя сумма здесь представляет вероятность того, что объект i имеет метку 
т, когда объект j имеет метку n. Таким образом, Р;(7п) есть взвешенная сумма этих 
вероятностей. Для случайного нанесения меток необходимо сначала получить оценкн 
Сун Р;;(т/т), которые должны быть как-то связаны с ограничениями непротиво- 
речивости и отношениямн семантических объектов. Если известны эти параметры H 
начальные значения Р;(т), мы можем использовать нтеративные методы HX уточне- 
ния, пока оценки Piim) не сойдутся. 

Более подробно этн нден будут рассмотрены ниже в разделе «Анализ свидетельств 
с использованием реляционных моделей». 
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5.4.3. Прнмер решення задачн обнаружения зданий на аэрофотосннмках. 
Рассмотрни часто встречающуюся задачу обнаружения зданий (см., например, нз- 
вестные работы [159], [262]). При этом, как правило, обосновано предполагается, что 
границы объектов на изображении являются прямолинейнымн. Поэтому на первом 
этапе в результате использования какого-либо из известных алгоритмов выделения 


pu z 


Puc. 5.4.1. Отношения между лииейиыми сегмеитами. Выбраиный отрезок выделен толстой лниней, 
Символами отмечены отношеиня следующих типов: +.» — близость; el» — коллниеариость; «=» — 
параллельность, «L,« — перпендикуляриость: «<» — угол 


Puc. 5.4.2. Пример модульного алгоритма автоматического обнаружения зданий с борта летатель- 
пого аппарата: 2 — исходиое авиационное изображение, 6 — коитуриый препарат, в — первичные 
линеамеиты, г — крупные и/или параллельные линеамеиты, д — окоичательный список лииеамеитов, 
е — П-образные структуры, ж — 20-модель сцены, з — стереоотождествление 20-моделей 
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отрезков прямых лнний формнруется спнсок лниеаментов и HX атрибутов. Отрезкн 
прямых линнй имеют TakHe атрнбуты, как длина, наклон н т. д. При этом между 
лннеаментамн могут быть сформированы отношення близости, параллельности, пер- 
пеидикуляриостн н T. д. (рис. 5.4.1) Далее на основе таких отиошеннй выделяются 
простые геометрнческне структуры, такне как параллельные пары, прямоугольннкн H 
T. д. 

Ha puc. 5.4.2 представлены этапы работы реалнзоваиного в Гос НИИАС модульного 
алгоритма автоматического обнаруження зданнй с борта летательного аппарата [194]. 
Данный алгорнтм включает следующие основные этапы: 

e выделение контурного препарата; 

• выделение первичных лннеаментов; 

e выделенне крупных H/HAH параллельных лниеаментов; 

е отбор линеамеитов по размеру: 

e поиск П-образных структур; 

e формированне окончательной 20-моделн сцены; 

e установление межкадрового соответствия между 20-моделямн; 

e формированне окончательной ЗО-моделн наблюдаемой городской сцены 
(puc. 5.4.3a); 

• определение целевых зданий B составе наблюдаемой 30-моделн городской сцены 
путем сравнения с заранее заданным трехмерным эталоном (рнс. 5.4.36). 


Рис. 5.4.3. Сформированная 30-модель наблюдаемой городской сцены (a) н ее трехмерный эталон (6) 


Заметим, что в данном случае ЗО-модель была сформирована нскусственно и COOT- 
ветсвующий алгоритм привязки моделн также разрабатывался спецнальным образом. 
Однако этот пример показывает качественную картину, к которой должны приво- 
дить, н автоматически порождаемые алгорнтмы обнаружения н ндентификацнн 3D- 
объектов. 


5.4.4. Структурно-лингвистический подход и логическое программироваине. 
Структурно-лннгвистнческий подход к описанию и ндентификацин объектов являет- 
ся альтернативой опнсанному выше походу. основанному на нспользованин реляцн- 
онных моделей. Прн этом следует учитывать тот факт, что вообще говоря, любой 
реляцнонной модели может быть поставлен в соответствие ее точный структурио- 
лингвнстнческий аналог, и наоборот. 

Принципы структурно-лингвистического подхода. Структурно-лннгвнстический 
подход к представленню н распознаванию ннформацни был изначально предложен 
Хомскнм [328]- [331] для описання собственно речевых структур. Однако достаточно 
быстро этот подход был распространен на задачн анализа внзуальных образов. В 70- 
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80-е годы прошлого века он получил широкое распространение. Основные подходы 
и результаты этого периода можно найти в [45]. В настоящее время структурно- 
лингвнстические методы прочно вошли в арсенал разработчиков систем распознава- 
ния образов в внде множества моднфнкаций н частных подходов. 

Суть структурного распознавання можно определить следующим образом. 

Признаками визуального образа считаются подобразы — так называемые непроиз- 
водные элементы (образующие) н отношения между ннмн. Говоря о средстве описания 
объектов в термннах иепронзводных элементов H HX отношений, употребляют понятие 
«язык». Правнла этого языка, определяющие способы построення объекта из непро- 
нзводных элементов, иазывают •грамматнкой». B соответствин с грамматикой тгкого 
язька объект представляется предложеннем в этом языке. 

Распознавание, в основном, состоит нз следующих этапов: 

1) определенне непроизводных элемечтов и HX отношений для конкретных типов 
объектов; 

2) проведение синтаксического анализа предложення, представляющего объект. 
с тем чтобы установить. может лн некоторая фиксированная грамматика породить 
нмеющееся описание объекта (этот акализ называют грамматическим разбором). 

Указанную грамматику можно определить («вывести»), используя априорные cBe- 
дення об образах либо проанализнровав выборочное множество образов. 


Рикс. 5.4.4. Схема струк“урного распознавання 


Можно считать, что лингвистическая снстећа структурного распознавання состо- 
нт нз трех основных частей (см. рис. 5.4.4). На этапе предварительной обработки 
предъявлениый для распознавання объект подвергается. во-лервых, некоторому рацн- 
ональпому кодированию и аппроксимацин, н, во-вторых, фильтрацни, восстановлению 
н улучшенню качества. Прежде всего, входной объект кодируется или annpokcHMH- 
руется такнм образом, чтобы дальше с ним было удобно работать. Так, например, 
черно-белое нзобзаженне можно закодировать с помощью сетки (или матрицы) нулей 
H еднииц, а сигнал можно апироксимировать его выборочными значеннямн, COOT- 
ветствующнмн разлнчным моментам BpeMeHH. HAH разложеннем в ряд Фурье. Для 
того чтобы повысить эффективность обработкн на последующнх стаднях работы, на 
этом этапе часто также прнбегают к какой-нибудь разновидности «сжатых данных». 
Затем при помощн какого-лнбо варнанта методов фильтрацин, восстановлення и/н- 
лн улучшения качества нзображення проводнтся устраненне шума, нскаженнй н/нлн 
повышенне качества закоднрованного (нлн аппрокснмнрованного) объекта. Предпо- 
лагается, что на выходе блока предварнтельной обработкн воспроизводятся образы 
«достаточно хорошего качества». 

Каждый объект, подвергнутый предварнтельной обработке, представляется згтем 
некоторой структурой языкового тнпа (наирнмер, цепочкой илн графом). Процесс 
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получення представления объекта включает две процедуры: а) разбненне («сегменто- 
ция») объекта, б) выделенне прнзнаков — непронзводных элементов. 

Для того чтобы найтн представлеине объекта через ero подобразы, необходнмо 
сегментировать объект H в результате этой операцин идентифицировать (выделить) 
его непронзводнье элементы H действующие в объекте отношения между HHMH. Дру- 
гими словами, все объекты, прошедшне предварительную обработку, разбиваются на 
подобразы н непронзводные элементы в соответствин с предварительно определен- 
нымн снитаксическнми H комбинаторными операциями. Каждый подобраз, в свою 
очередь, отождествляется с некоторым заданным набором непронзводных элементов. 
В результате каждый объект получает свое представление с помошью некоторого 
набора непронзводных элемеитов н ряда фикснроваиных снитаксических операций. 

Система должна обладать способностью обнаруживать сннтакснческне связн, CY- 
ществующие в объекте. Решенне о снитакснческой правильностн представлення объ- 
екта (т. e. о принадлежностн его к определенному классу, задаваемому определенной 
сннтакснческой системой или грамматикой) вырабатывается «синтаксическим ана- 
лизатором», нначе называемым «блоком грамматнческого разбора». Прн выполненнн 
синтаксического аналнза (грамматического разбора) анализатор обычно воспронзво- 
AHT полное синтакснческое оинсание объекта B внде дерева грамматического разбора, 
еслн соответствующий объект является сннтаксически правнльным. В противном слу- 
чае объект либо отклоняется, либо подвергаеҳся анализу с помощью других задапных 
грамматик, позволяющих описывать другие классы изучаемых объектов. 

Одна нз самых распространенных в распознавании процедур — это сопоставление 
с эталоном. Цепочка пепроизводных элементов, представляющая поданный на вход 
системы объект, сопоставляется с цепочками непроизводных элементов, представ- 
ляющими все эталонные объекты или объекты обучающей выборки. Распознаваемый 
объект с помощью выбранного критерия согласия HAH подобия oTHOCHTCR к тому клас- 
су. к которому принадлежит н эталонный объект. обнаруживший нанлучшее согласие 
с ним. Иерархическая структурная информация при этом практически нгнорнруется. 
B то же время полный разбор цепочки. представляющей распознаваемый объект. поз- 
воляет полностью изучить его иерархическое структурное оинсанне. Между этими 
двумя крайностямн заключена масса промежуточных подходов. В частности, MOX- 
но сформировать набор тестов для проверки наличия или отсутствия определенных 
подобразов или пепроизводных элементов, так же как комбинации H тех, и других. 
Результаты такой нроверкн. которую можно проводить с помощью процедур просмот- 
ра таблиц, построения дерева решення или логического анализа, используются для 
выработки класснфнкационного решения. Отметим, что каждый из этих тестов MO- 
жет являться н процедурой сопоставления с эталоном, н процедурой грамматнческого 
разбора, определенными для поддерева. представляющего подобраз. Обычно выбор 
конкретной процедуры распознавания зависит от специфических особенностей зада- 
чи (на него, естественно. влияют н опыт пользователя, и наличие соответствующих 
прикладных программ). Если распознавание требует работы с полным описаннем объ- 
екта, то необходим грамматнческнй разбор. В других случаях полного разбора можно 
избежать, ограничившись более простымн методамн. 

Для того чтобы получить грамматику, характернзующую структурную ннформа- 
иию об изучаемом классе объектов, требуется блок вывода грамматики, обеспечнваю- 
щий вывод соответствующей грамматикн по заданному набору обучающнх объектов. 
представленных опнсаниямн структурного тнпа. (В настоящее время этот этап, как 
правило, выполняется разработчнком системы «вручную».) Эта процедура аналогнчна 
обучепкю в другнх методах распознавания. Структурное описание соответствующего 
класса формируется в процессе обучения на примерах реальных выборочных объектов 
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этого класса. Такое описание в форме грамматики используется затем для представ- 
лення объектов н снитакснческого анализа. В более общем случае обучение может 
предусматривать определение наилучшего набора непронзводных элементов н полу- 
чение соответствующего структурного опнсання классов объектов илн явленнй. 

Логическое программирование в задачах обнаружения M ндентификации 
объектов. Логическое программирование здесь рассматривается как способ авто- 
матизированного конструнрования алгоритмов обнаруження объектов иа основе нх 
модельных описаннй, заданных в некотором сннтаксическом виде (записанных на 
нскотором специальном языке). 

Модельно - ориентированный подход к разработкс алго- 
ритмов обнаружения. В современной обработке нзображеннй господствует 
подход, который можно назвать процедурно-орнентированным. Этот термин означает, 
что, приступая к решенню новой задачи. специалист в областн обработки нзображе- 
инй чаще всего задумывастся не о том, как найти алгоритм, оптимальным образом 
решающий данную задачу. а о том, как скомбиннровать уже известные ему процедуры 
обработки изображений так, чтобы они решалн данную задачу. Между тем, любому 
набору процедур обнаруження всегда соответствуст некоторая явная или пеявная мо- 
дель соответствующего целевого объекта. 

Рассмотрим, например, две модульные процедуры обработки контурных бинарных 
нзображеннӣ. Первая: «проследить связные отрезки лнний — выбрать из них прямо- 
линейные отрезки — составнть спнскн отрезков, лежащих на одной н той же прямой». 
Вторая: «найти прямые линин, на которых находится много точек — из точек, лежа- 
щнх на этнх прямых, провязать непрерывные отрезки». Процедуры эти различны н 
для нх реализации требуются алгоритмы различных классов, Но объект, который онн 
выделяют, — один H TOT же — «штриховая прямая лниня». Весь вопрос B том, какой 
моделью этот объект описать. Если мы опишем его моделью вида «набор штрихов, 
лежащих на одной прямой», то получим процедуру первого рода. Еслн же выберем 
модель «прямая линия, состоящая из отдельных штрихов», TO ирндем к процедуре 
второго рода. Процедуры н модели однозначно соответствуют друг другу, Однако, на 
каш взгляд, установить взаимную эквивалентность моделей (а значит, H возможность 
другого способа решения той же задачи), гораздо проще, чем эквивалентность соот- 
ветствующих процедур. Попробуем для нашегочаримера показать, какие операции над 
моделями нужно совершить, чтобы перейти от первой модели (М!) ко второй (M2). 

Прежде всего, любая модель — это набор элементов, связанных какимн-то OT- 
ношениими. В данном примере модель M, состонт из элементов типа «отрезок» (с 
атрибутом «прямолинейный») н объекта типа «линия» (с атрибутом «прямая»), свя- 
занных между собой отношеннем «лежать на». Если наша база знаний содержит 
сведения о том, что геометрическое отношенне лежать на (элементы, линия) являетси 
эквивалентным отношению содержать (линня, элементы), TO от модели М; сразу мож- 
но перейти к модели M». Таким образом, первый прием, который здесь необходим, — 
это замена отношений на эквивалентные. 

Однако это еще не объясняет всех различий в приведенных далее алгоритмах. 
Необходимо использовать еще два приема: декомпозицию молели H нерархическую 
индукцию отношений. Начнем с того, что элементы типа «отрезок», в свою очередь, 
также являются составнымн н описываются моделью «набор элементов тнпа «точка», 
попарно связанных отношеинем соседства» (что означает непрерывность отрезка на 
дискретной плоскости). При этом имеет место очевидная индукция отношений: 

если (лежать __ча (отрезки, точки) и лежать _на (отрезки, линия)) 

то (лежать _на (точки, лниня)). 
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Таким образом, модель М; «прямая лниня, состоящая нз отрезков» заменяется 
моделью Мз «прямая лнння, состоящая из точек». 

Заметим, что моделн М2 н Мз на самом деле не эквивалентны. Модель Мз onu- 
сывает как штриховые линии, так H пунктирные (то есть является болес грубой). 
Это обусловлено тем, что модель Мз никак не учитывает условне связности, которое 
накладывается на точки в отрезках. Значит, модель Мз нужно уточнить следующни 
образом: 

(«прямая линия, состоящая H3 точек») 

причем («точки линии составляют связные отрезки»). 

Такая модель М; действительно эквивалентна М> (а значит, н исходной Mi). 
Именно ей и соответствует модульная процедура, на первом этапе которой точки 
голосуют в пользу прямой линин, а иа втором — на этой прямой нщутся связные 
отрезкн. 

Выразим этн нден в формальном ключе. 

Метод преобразования модельных описаннй. Пусть модель объ- 
екта задана в следующем виде: 


М = Мл Мл... AMn. (5.4.1) 


Здесь утверждение второго уровня (об‹объекте в целом) всегда нмеет вид набора npe- 
дикатов Mi, соединенных между собой оперзщиями конъюнкции. Каждый предикат 
является некоторым условнем, накладываемым на точки нскомого объекта и связи 
между HHMH. Прн этом в интересующей нас области анализа изображения исполь- 
зуются предикаты. соответствующие операциям T. н. «низкоуровневой» или «срелне- 
уровневой» обработки изображений, таким как проверка связности некоторого множе- 
ства точек, принадлежность заданной точки некоторому множеству точек, проверка 
количества точек в заданном множестве н т. п. Задачей является построение Habo- 
ра процедур, позволяющих обнаружнвать па изображении объекты данного класса с 
использованием алгоритмов некоторых заданных типов. Возможный метод построе- 
ния таких процедур основывается на сравнеини заданного описания молели объекта c 
типовыми моделями объектов, для обнаружения которых могут использоваться ANTO- 
ритмы соответствующих типов. Моделн типовых объектов, таким образом, рассмат- 
риваются в данном подходе как модели алгоритмов. При этом модель алгоритма, 
как H модель объекта, представляет собой структуру, содержащую набор условий, 
налагаемых на точки изображення, характер связей между нимн и набор яркостно- 
геометрических параметров. Соответствие структуры моделей устанавливается путем 
сопоставления условий из модели объекта н условий H3 модели алгоритма. 

Рассмотрим метамодели двух основных типов алгоритмов обнаружения объектов 
на изображенин. 

Иерархические рекурсивные структурные модели, которым соответствуют ре- 
курсивные процедуры логического программирования, используемые в большинстве 
реализаций языка Пролог, системах геометрической логики, а также в методах ана- 
лиза связных компонент [59], [60]. 

Иерархические нерекирсивные структурные модели, которым соответствуют нте- 
parHBHbie процедуры голосования типа преобразования Хафа [146], [188], морфологи- 
ческие фильтры Серра [240] н ряд других процедур голосования. 

Иерархическая рекурсквная структурная модель объекта представляет собой yno- 
рядоченный набор условий, наклады ваемых на элементы искомого объекта и связи 
между ними. При этом допускается определение одних условий через другие, запн- 
санные ранее, а также рекурсия условий, т. е. определение условия через само себя. 
Каждому условкю, накладываемому на целевой объект, соответствует некоторая част- 
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ная процедура, входящая в состав результирующего алгоритма. Частные процедуры 
вызываются в том порядке, в котором расположены соответствующие условня в опн- 
сании объекта. Из допустимостн рекурсивных условий следует, что результнрующий 
алгоритм в общем случае будет рекурсивным. 

Иерархнческая нерекурсивная структурная модель объекта представляет собой 
неупорядоченный набор условий, накладываемых на элементы искомого объекта, npu- 
чем выполнение H результат процедуры проверкн любого К-го условня никак не 38- 
висят от результатов выполнения всех предыдущих К — 1 условий. Соответственно н 
порядок вызова частных процедур в данном случае не зависит от порядка расположе- 
ния условий в описании объекта — они могут выполняться как последовательно, так 
н параллельно. 

Для построения процедур обнаруження заданного типа по заданным иоделям объ- 
ектов применим следующие два тнпа преобразования моделей: 

перестановка предикатов в опнсанни модели объекта: 

декомпозиция (разбиение) модели на две части н редукция (отсечение) одной из 
HHX. 

Использование перестановки предикатов в описании моделн объекта (5.4.1) поз- 
воляет получать несколько эквивалентных описаний (моделей) одного н того же объ- 
екта: 


М= Мл Мл... AMan: 
M=M AMA... AMan, 


ит. д. Поскольку в рекурсивном алгоритме порядок следования условия соответствует 
порядку вызова процедур, каждое из полученных таким образом описаний соответ- 
ствует различным рекурсивным алгоритмам обнаружения. 

Операция декомпозиции модели подразумевает разбнение полученного путем пе- 
рестановки условий описания объекта на две частн: 


М = (ММ,, M M3), (5.4.2) 


где 
ММ, = М, ^ М. №... ^ My; 


ММ = Мк. ^ Mga2 ^ ... A Mg. 


Такому описанию моделн объекта соответствует модульный алгоритм обнаруже- 
ния данного объекта, состоящий нз алгоритмов первого H второго уровня. Результатом 
работы алгоритма первого уровня будет список объектов, удовлетворяющих логически 
загрубленной модели М.М). Далее строятся процедуры обнаружения второго уровня, 
которые анализируют объекты, полученные на первом этапе, и выбирают из HHX те, 
которые удовлетворяют также модели M М», а значит и исходной модели M в целом. 

Можно показать, что полная модель описания объекта может быть целиком пре- 
образована к нерекурсивному виду только в том случае, еслн данная модель не содер- 
жит предикатов, накладывающих различные условия на связи между элементами 
объекта. Инымн словами, нерекурсивные логические модели и соответствующие HM 
процедуры обнаружения объектов методом голосования свидетельств голностью ана- 
логичны классу однородных структурных моделей. рассмотренных в статьях [64]- [66]. 

В общем случае произвольной модели объекта Tuna (5.4.1) всегда может быть 
поставлена в соответствие некоторая модульная процедура обнаружения данного 
объекта вида (5.4.2), причем подмодель MM, соответствует процедуре голосова- 
ния на базе однородных нерекурсивных моделей, а подмодель ММ. — рекурсивной 
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процедуре анализа связей между элементами, выделенными на первом этапе. Что- 
бы сформировать такую смешанную (однородно-неоднородную) модель из некоторой 
произвольной исходной, необходимо сначала выписать условия, гроверка которых He 
зависит от проверки всех остальных условий, а затем — все оставшиеся условия в 
порядке HX взаимозависимости и зависимости от ранее записанных условий. Mony- 
ченную при этом однородную модель MM, будем называть однородной базой non- 
ной модели М. Если однородная база не содержит в явном виде ни одного условия 
(то есть все явные условия данной модели являются рекурснвными), будем считать, 
что модель М основана на тривиальной однородной базе, заключающейся в неявно 
подразумеваемом тривнальном однородном разбкенин изображения на независимые 
первичные элементы (пикселы). 


* Автоматическая разработка алгоритмов машинного зре 
ния с использованием логического программирования. С уче- 
том вышензложенного может быть реализована следующая общая структура системы 
автоматизированной разработки алгоритмов анализа цифровых изображений в зада- 
чах обнаружения н ндентификацин сложных структурных объектов. 

Основные блоки системы: 

1) Блок формального описания моделей путем иерархического задания элементов 
н отношений. 

2) Блок преобразовання моделей объектов. 

3) Блок перевода декларативного описання объекта в соответствующее процедур- 
ное. 

4) Блок реализации полученных алгоритмов путем модификации типовых мета- 
алгоритмов, соответствующих стандартным мета моделям. 

5) Блок вероятностного опнсання элементов и моделей н расчета характеристик 
достоверности обнаруження. 

6) Блок статистического анализа результатов обработки изображения. 

7) Банк данных о програм мно-аппаратных характеристиках типовых процедур. 

Принцип работы данной системы заключается в следующем. Система получает от 
пользователя структурное описание объекта на «почти естественном» языке. Данное 
описание определяет нскомый объект как совокупность составляющих его элементов 
н связей между нимн. Язык задания декларативного описания искомого объекта мо- 
жет быть построен на базе языка логического программирования типа Пролог [59], 
160]. Далее происходит автоматический переход от структурного описання объекта к 
процедуре его поиска на нзображеннн. Этот переход осуществляется на самом низком 
(пиксельном) уровне описания объекта. Система использует свои знания 0 типовых 
способах обработки н анализа изображений для автоматического формирования всего 
дерева возможных решений прн построении алгоритма выделения указанного объек- 
та. Эти задачн решают блоки 1, 2 н 3. Также должна быть обеспечена возможность 
проверить полученные решення на реальных изображеннях (блок 4). Блок 5 позволяет 
на основе вероятностного опнсания элементов н моделей рассчитывать характерксти- 
кн достоверности обнаруження H затем объяснять полученные выводы. Для назначе- 
EHA необходимых оценок вероятностн могут нспользоваться как экспертные знання 
специалистов, так H блок статистического анализа результатов обработки изображе- 
ния (блок 6). В систему также может быть включен блок, содержащий сведения о 
быстродействин и других параметрах типовых алгоритмов при HX реализации на раз: 
личных вычислительных платформах. Это позволяет производить отбор тех решеннй, 
которые не только соответствуют заданной модели, но и удовлетворяют ряду требова- 
ний, предъявляемых к создаваемой (моделируемой) системе обработкн изображений 
реального временн, 
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5.4.5. Литература для самостоятельного изучения. В данном разделе речь 
ндет в значительной степени о тематике «распознавания образов». На заре эры nc- 
кусственного интеллекта связка «обработка изображений н распознавание образов» 
считалась совершенно естественной н не подлежащей сомнению. Но на сегодняшний 
день эта обширнейшая область, получившая в настоящее время названне machine 
learning (машинное обучение). содержит развитый и хорошо проработанный аппарат, 
который, вообще говоря, не нмеет никакого отношения собственно к изображениям 
или даже к зрению в широком смысле, Принципы распознавания образов предполага- 
ют, что любой объект или процесс может быть описан некоторым набором признаков 
или другим формальным описанием, н уже на основе этого формального описания 
далее может быть опознан или классифицирован H T. д. H т. п. То есть после опн- 
сання изображения илн объекта на изображении работа собственно с изображением 
практически заканчивается, н дальше уже действуют единые механизмы распозна- 
вания, одинаковые для объектов на изображениях M, например, трендов биржевых 
котировок, С этого момента теорня распознавания образов уже выходит за преде- 
лы нашего интереса, сосредоточеиного на работе с изображениями H решении задач 
машинного зрения. С методической точки зрения систематическое знакомство C нде- 
ими и методами распознавання образов крайне полезно для специалистов в области 
машинного зрения. Мы предполагаем, что соответствующий учебный курс должен 
B обязательном порядке читаться студентам данной специальности — ранее, парал- 
лельно или после настоящего учебного курса. Для самостоятельного изучения этой 
тематики мы рекомендуем стандартный набор книг ([11], [20], [22], [23], [45]) к 3a- 
мечательный постоянно развивающий современный русскоязычный интернет-ресурс 
machinelearning.ru. 

В кинге (Гонсалес, Вудс) [19] глава 12 посвящена распознаванию объектов. Из- 
ложение здесь nocrarowHo краткое н скорее соответствует курсу «распознавания об- 
разов», как он традиционно строился, начиная с 1980-х годов. В том числе без особых 
подробностей описаны традиционные элементы такого курса — статистическая теорня 
решений, обучение, многослойные нейронные сети и синтаксическое распознавание. 
Синтаксическое распознавание описано кратко, но достаточно ясно. 

В главе 14 книги (Шапиро, Стокман) [49] н частях V и VI книги (Форсайт, 
Понс) [44] также изложены нден, обсуждавшнеея выше, но их описание не вынесено 
в отдельные спецнфнческне разделы. 
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5.5. "Методы анализа свидетельств 


5.5.1. *Анализ свидетельств на изображениях, В работах [67], [333], [334] метод 
анализа свидетельств для обнаружения на изображениях сложных структурнрован- 
ных объектов описан следующим образом. 

Метод основан на теодетико-вероятностном подходе, причем обнаружение сводит- 
ся к проверке гипотезы о нахождении изображения объекта на реальном изобра- 
жении. При этом любой яркостно-геометрической модели объекта ставится в со- 
ответствие некоторая экспертная вероятностная модель, описывающая статистиче- 
ские зависимости между различного рода особенностями изображения H гипотезой 
о принадлежности наблюдаемого объекта данной яркостно-геометрической модели. 
Полученная вероятностная модель используется уже на этапе обнаружения объекта, 
непосредственио 8 ходе низкоуровневого анализа конкретного предъявляемого H306- 
раження. При этом каждая обнаруженная особенность данного изображения (харак- 
териая черта) рассматривается как событие, свидетельствующее в пользу гипотезы 
(ряда гипотез) о наличин н характеристиках искомого объекта. Инвариантность 
(робастность) обнаруження к условиям регистрации обеспечивается за счет соот- 
ветствующего выбора типа используемых свидетельств (ХЧ), таких, что их связь с 
оценнваемымн параметрами регистрации не зависит или слабо зависит от значений 
параметров, которые на этапе обнаружения не оцениваются. 

Осиовным ограннчением этого подхода следует признать необходимость апрнорно- 
го знания соответствующих функций распределения вероятности. Одиако этот недо- 
статок может быть в существенной мере преодолен, если вместо вероятностных мер 
достоверностн использовать нечеткие, а вместо теоремы Байеса — ее соответствую- 
щие нечеткие аналоги. 

На уровне формального описання задача обнаружения рассматривается здесь как 
задача выделения на реальных изображениях объектов, удовлетворяющих некоторой 
заданной модели M, вне зависимости от конкретных условий регистрации S, в o6- 
становке наличия помех А, с учетом необходимости обеспечения заданного уровня 
достоверности J при заданиых ограничениях на ресурсы цифровой вычислительной 
снстемы Cost. Модель объекта в самом общем виде может быть представлена как 
набор ограничений, накладываемых на изображения, которые могут являться изоб- 
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ражениямн данного объекта. При помощи модели регистрации опнсываются любые 
регулярные геометрические н радиометрические нскаження идеального нзображения, 
соответствующего исходной модела. Она может быть представлена в виде некоторого 
параметрического множества преобразований S(0), rne Ө — вектор параметров. Mo- 
дель искажений R представляет собой также некоторую полугруппу преобразований 
R, имеющих случайный характер. В качестве критерия достоверности обнаруже- 
ния предложено использовать байесовский критерий выпуклого риска, учитывающий 
ошибки первого н второго рода. Kpumeouü вычислительных затрат описывает na- 
лагаемые ограничения го времени вычислений H аппаратным ресурсам. 

Показано, что в рамках предложечной постановки задачи обобщенный метод ана- 
лиза свидетельств определяет следующие основные возможности повышения вычис- 
лительной эффективностн алгоритмов детектирования: 

€ независимое аккумулнрование свидетельств: 

€ декомпозиция вектора параметров; 

e редукция вектора параметров: 

: e загрубленне модели объекта. 

Относительно независимого аккумулирования свидетельств, показано, что предпо- 
ложенне о независимости в совокупности множества ачализируемых событий ABIA- 
ется достаточным условием для возникновения возможности применения кумулятив- 
ной стратегии накопления сведений в Байесовских алгоритмах детектирования. Прн 
этом аккумулироваиие является эффективиым B вычислительном плане только при 
условин, что число свидетельствующих событий (выделенных на изображении харак- 
терных черт) сравнительно невелико, а пространство параметров HMeeT иевысокую 
размерность. 

Если существует декомпозиция модели регистрации 5(0) = S(0/)S(0"), где 
дит(60’) = dı. dim(&") = do и dı + d = d, ro в этом случае имеется возможность пред- 
ставлення выражения для апостериорной вероятности в виде произведения двух со- 
множителей, причем второй из них зависит от первого, а первый от второго — не 
зависит. Это значит, что сначала возможно оценить вектор параметров преобразова- 
ния 0’, а затем, используя эту оценку, — вектор Ө”. Выгода от такого разделения 
очевидна, так как вместо работы в пространстве параметров размерностн d мы сна- 
чала работаем в пространстве размерности. dı а затем — в пространстве размерности 
42. Часто достаточно определить лишь параметры 60’. В этом случае имеет место 
редукция вектора параметров. 

Также эффективным приемом организации детектирования является загрубление 
модели. Переход от модели объекта М к модели объекта M' 2 M называется «загруб- 
леннем моделн объекта». Прн нспользованни загрубленной модели объекта, платой за 
достижение вычислительной эффективности становится потеря однозначности HHTep- 
претацин результатов анализа. Поэтому wx постпроверка путем повторного анализа 
изображения становится обязательной. m | | 

Мета-алгоритм, обобщающий все рассмотренные возможности уменьшення вычис- 
лительных затрат, нмеет внд: 

e Выполнить первичное аккумулнрованне свидетельств H определить параметры 
Qi преобразования (0) = з(0;)з(02), доставляющего максимум критерию достовер- 
ности А(М’) для параметров регистрации относительно загрубленной модели M"; 
вычислить значение этого критерия. 

• Если полученное значение KiM’) выше заданного порога, повторно проаналн- 
зировать изображение обнаруженного объекта с целью вычисления достоверности 
принадлежности объекта к исходной модели М; вычислить значение критерия нден- 
тнфикацин K(M). 
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• Если полученное значение K(M) выше заданного порога, считать, что на изоб- 
раженин обнаружен объект, описываемый моделью s(0)( M). 

Такнм образом, модульная схема обобщенного алгоритма обнаоужения объектов. 
содержит по крайней мере три основных процедуры, применяемые последовательно: 

•обработка изображения по схеме голосования с целью выделения объектов или 
ях составляющих; 

®анализ аккумулятора с целью определения положення и/или ориентации объ- 
ектов: 

® повторный анализ изображения с целью проверки природы обнаруженных объ- 
ектов H уточнения HX параметров. 

Этой схеме соответствует следующая формальная последовательность шагов раз- 
работки частного алгоритма обнаружения для конкретной задачи анализа нзображе- 
HHH. 

• Для конкретной задачи детектирования формально описать модель объекта, 
модель peeucmpauuu н модель искажений. 

® Определить возможную степень загрубления модели объекта. 

® Определить возможную редукцию (или декомпозицию) вектора параметров 
регистрации, обеспечивающую необходимую устойчивость детектноования объекта 
по загрубленной моделн. 

• Определить типы «событий», вычислительные затраты на регистрацию которых 
не превышают заданных пределов. 

e Составить качественную вероятностную модель, связывающую гипотезу о npH- 
сутствин на изображении объекта с соответствующими «событиями»; по возможности, 
загрубнть эту модель. 

e Для полученной вероятностной модели определить соответствующую процедуру 
голосования для каждого типа используемых «событий». 

e Для полученной вероятностной модели определить соответствующую процедуру 
анализа аккумулятора для каждого типа используемых «событнӣ». 

e С учетом нспользованного загрубления модели объекта разработать необходимую 

процедуру постпроверки достоверности обнаружения объекта. 
7 Рассматривая практические приложения данного метода, необходимс прежде Bce- 
го отметить, что в отличие от общих вероятностных, информационных, глгебранче- 
ских, нейросетевых н 7. п. подходов описанный метод анализа свидетельств имеет 
четко очерченную область применения в задачах обнаружения H локализации слож- 
ных структурных обьектов на статических цифровых изображеннях, так как B ка- 
честве исходных данных предполагает наличие яркостно-геометрической модели 
двумерного образа нскомого объекта, нсходя из которой он позволяет стандартным 
образом порождать необходимые яркостно-геометрические модели подлежащих об- 
наружению характерных черт («событий») н устанавливать их геометрическую связь 
с параметрами модели объекта для последующей локализации и идентификации объ- 
екта на изображении. При этом о содержательной яркостно-геометрической модели 
объекта можно говорить только B том случае, если существует определенная неод- 
нородность внутри самого нзображения объекта, которая позволяет выделить внутри 
него некоторые характерные черты н затем выявить HX пространстзенные отношения, 
которые послужат основой для локализации объекта. 


5.5.2. *Метод обнаружения штрнховых кодов и текстовых областей на изоб- 
ражениях. Рассмотрим пример применения методики разработки алгоритмов анализа 
свидетельств к решению практической задачи на примере задгчи обнаружения Tek- 
стовых н штриховых областей [68]. 
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Определим обобщенную математическую модель символьной области (штрихового 
кода или текстовой строки). Такая модель должна описывать нанболее существенные 
свойства штрихового кода илн текстовой строки как яркостно-геометрического объ- 
екта на полутоновом нзображенни. Принята следующая модель штриховой строки, 
в рамках которой штриховой код, в свою очередь, рассматривается в качестве загруб- 
ленной модели текстовой строкн. 

Модель объекта. Штриховая строка представляет собой прямоугольную область 
плоскости, заполненную белыми н черными полосами (прямоугольникин), чередую- 
щимнся в горизонтальном направлении. Ширина каждого из прямоугольников может 
быть различна, но не менее пиксела. Размер области-носителя может быть различным 
н зависит от числа символов текста HJIH кода в строке. 

Модель регистрации. Геометрические искажения определяются классом проек- 
тивных преобразований (в простейшем случае — аффинных). Раднометрические pe- 
гулярные искажения заключаются в HepaBHOMepHOM «размыванин» черно-белой палит- 
ры при ее отображении на шкалу серого цвета. При этом предполагается сохранение 
достаточного контраста между любымн двумя соседнимн полосамн, 

Модель искажений. Допускается шнрокий спектр искажений яркостн (блики, ne- 
речеркивание, замещение фрагментов H т. п.) и геометрии (изгибы н +коробление» 
несущей поверхности). 

При разработке алгорнтма обнаружения былин использованы все прнемы повыше- 
ния эффективности детектирования, рассмотренные выше. 

1. Загрубление и редукция модели. Вместо модели «область плоскости, заполнен- 
ная белыми н чернымн параллельнымн полосами» рассматривается модель «четырех- 
угольная область плоскости, содержащая большое число пикселов с приблизительно 
колккеарными градкентамн». Это позволяет повысить устойчивость к различным Ap- 
костным н геометрическим искажениям. Кроме того, многопараметрическая модель 
носителя объекта своднтся к 8-параметрическому семейству четырехугольников вида 
(zi gi. 22.2. 73 V3. 24,04), Где (Ti yi) — координаты 1-го угла четырехугольннка. 

2. Декомпозиция и редукция вектора параметров. Основным свойством сохра- 
нения группы проективных преобразований при заданных условиях съемки является 
то, что прямые линии отображаются только в прямые лиини. Поэтому детектирова- 
ние четырехугольников удобно производить-В пространстве Хафа (р,9). Для этого 
8-параметрическая модель (21,7. 22.92. 73,93. Еа.) была преобразована к виду 
(91,81. 02,02, 1,112, 821,822), где (91,81, 02,02) — параметры кодосодержащей nono- 
сы; (01,091.61 (ри, 91,12), (р2,02, 21). (2,02, 22) — координаты углов четырехуголь- 
инка. Для моделн аффниных преобразований справедливо также условне 0, = Ө = Ө. 
Таким образом, имеет место декомпозиция 


(ри, 02,9, 11,Ё12,ё21,822) = (P1, рз,@) о (#11, #12, 21.622). 


Это позволяет сначала пронзводнть детектирование кодосодержащих полос (р, ,р2,0), 
а затем — определять параметры (Шу, &12, #21, #22) непосредственно в ходе аналн- 
за кодосодержащей полосы. На этапе анализа кодосодержащей полосы была также 
использована редукция вектора параметров (£11,612, 121.£22) до вектора ({1,ё2) путем 
принятня дополнительного допущения tj, = {21 ЕЁ; 02 = 622 = t2. 

3. Использование иерархических моделей. На этапе детектирования кодосодержа- 
щих полос вместо модели «полоса (Pi, P2,0), содержащая большое число пикселов с 
приблизительно колинеарнымн граднентами», рассматривалась иерархическая модель 
«совокупность ряда сосединх прямых с одинаковым Ө». Это позволило производить 
детектирование не B трехпараметрическом пространстве (0,,02,0). а в традиционном 
двухпараметрическом пространстве Хафа (р,Ө). 
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4. Независимое аккумулирование свидетельств. Голоса пикселов с высоким гра- 
днентом независимо аккумулировались в пространстве Хафа с учетом направления 
градиента. 

В результате предложен модульный алгоритм обнаруження штриховых кодов, 
включающий следующие основные этапы. 

1) Модифицированное голосование Хафа. 

2) Дифференцирование аккумулятора. 

3) Определение параметров кодосодержащих полос. 

4) Определенне координат объемлющих прямоугольников. 

5) Проверка обнаруженных объемлющих прямоугольников. 

Рассмотрим подробнее оригинальные этапы алгоритма 1-3 и 5. 


Модифнцированное преобразование Хафа. 

Список параметров алгоритма: fp — порог по яркости, значение Bbl- 
бирается оптимальным относительно процедуры бинаризации Отсу; tı — порог на 
квадрат модуля градиента; hi — размер аккумулятора по длине нормали (число ячеек 
аккумулятора в каждом сечении ф -= const); h; — половина днапазона голосования 
по углу; 4, — полуширина окна оператора днфференцирования аккумулятора; m, — 
пороговое значение для амплитуды значения максимума в днфференцированном aK- 
кумуляторе; m2 — полуширина окна поиска сопряженного минимума в дифференцн- 
розанном аккумуляторе вокруг точки пересечеция нуля накопленной суммы; тз — 
половкна ширины окна стирания в списке максимумов по оси углов; пл — полови- 
на ширины окна стирания в списке максимумов по р; ть — порог для параметра 
заострения максимумов. 

Осиовные этапы алгоритма. 

1) Вычисление поля градиентов. Для каждого пиксела f(r,y) < fy выполняется Bbl- 
числепие градиента g(x,y; = (9г(т, y), gy(z,y)) оператором Собела. После этого вы- 
числяются значения квадрата модуля градиента g?(m, y). 

2) Голосование контурных точек. Для каждого пиксела изображения со значени- 


ем 9?(г.у) > t, вычисляется базовое направление градиента /(т,у) = arctg (2:2) H 


выполняется акт голосования модифицированного преобразования Хафа. После окон- 
чания данного шага алгоритма в каждой ячейке аккумулятора хранится количество 
пикселов изображения. лежащих на прямой с координатами (р, р) и имеющих значи- 
тельный градиент с ориентацией в пределах [o — 12, ф + №]. 

3) Дкфференцирование аккумулятора. Для каждого элемента аккумулятора (р, Ф) 
оценка производной в точке р (ф = const) вычисляется следующим образом: А = 
= АСС(р-4,ф)+...+ ACC(p- 1. $), В = АСС(р + di, ф) +... + ACC(p + 1.«), 
АСС(р,ф) = [(В - А)/4,]. 

4) Определение параметров кодосодержащих полос осуществляется путем выпол- 
нения следующих операций; 

4.1) Найти все локальные (в aneprype 3 x 3) нестрогие максимумы М»(р.ф) = 
= АСС(р,фФ) в дифференцированном аккумуляторе, удовлетворяющие условиям 
(Мк(р,Ф) > три (ACC(o, e - 1) + Mi(p, ф) + АСС(р, ф + 1)/Mi(0,«) > ms. По- 
местнть координаты найденных максимумов в список. 

4.2) Взять наибольший локальный максимум в списке М»(р,ф) и выполнять 
суммирование вправо до пересечения суммой нулевого значения. Найтн наимень- 
ший кестрогнй минимум № (ру. фк) в окрестности точки пересечения нуля [Pk + ї — 
— тә, Pk + i+ mo). Полученную тройку значений (рь, Ph, Фк) поместить в список KO- 
досодержащих полос. Удалить из списка максимумов все локальные максимумы, рас- 
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положенные в окрестности Mi (рк. фі). T. е. с координатами в пределах [p -- та. Pi. - 
+ и [фе mas. фк i nma]. 
4.3) Вернуться к шагу 4.2 и повторить для следующего максимума в списке. 

Если в списке больше HCT максимумов — завершить анализ списка максимумов. 

Особенности модифицированного преобразования Хафа. Описанный алгоритм 
обнаружения колосодержащих полос был назван моднфицированным преобразовани- 
ем Хафа (МНТ). исходя из слелующих соображений. С одной стороны, этот метод 
генетически связан как с классическим преобразованием Хафа (НТ), так и с обобщен- 
ным преобразованием Хафа (СНТ). С другой стороны, он имеет ряд существенных 
отличительных особениостей, которые делают ero песводимым ни к НТ, ни к GHT 
(рис. 5.5.1. рис. 5.5.2). Отличительные свойства МНТ следующие. 


ULT CO JOAN (у. 
V38CCCCINL E205» 


Puc. 8.5.2. Особеиности мэдифицированного преобразования Хафа 


1} Голосование реализуется, как в классическом преобразовании Хафа, в про- 
странство (р.0). но пе по всему диапазону значений 0, а только в малом растворе 
угла голосования зокруг паправления ориентации всктора-граднекта. 

2) В кгчестве биссектрисы угла голосования выбирается направление градиента, г 
He перпендикуляр к нему (как это делается в некоторых реализациях преобразования 
Хафа). | 

3) Сущность анализа аккумулятора состоит пе в поиске локальных максимумов в 
аккумуляторе (р.6). а в поиске сопряженных пар «мннимум-максимум» в дифферен: 
цированном пространстве Хафа. Эти сопряженные пары точек в дифференцированнох. 
аккумуляторе соответствуют границам сигнала типа «меандр» в соответствующих Ce- 
чениях аккумулятора Ө = const в исходном пространстве Хафа или штриховым поло: 
сам на исходном изобргжепии. 

4) Лежащая в основе МНТ модель объекта (штрихового кода) не столь проста. 
как молел» объекта, допускаемая НТ (прямая линия). В то же время опа и не стол 
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‚ жесткая». как модель объекта в GHT. Модель объекта в MHT пе порождается (n 
отличие от НТ и GHT) применением группы преобразований к пекотсрому эталон- 
ному объекту. Эта модель является гибкой и стохастической. поскольку допускается 
произвольное число элементов объекта (штрихов кода). причем эти элементы могут 
иметь произвольные параметры (ширину). При этом модель объекта не использует 
никакой дополнительной информации о конкретной копструкции TOTO или иного кода 
или шрифта. Это позволяет считать областью применения MHT обнгружение любых 
одномерных н двумерных штриховых кодов, а также текстовых строк независимо от 
их особенностей. B то же время. данная модель достаточно специфична, чтобы поз- 
волить уверенно отличать штриховые области от любых других классов сбъектов, а 
также различать текст H штриховые коды между собой. 

Таким образом, МНТ является оригинальным методом анализа изображений, cne- 
циально созданным для решения залачи обнаружения одпомериых штриховых кодов 
и символьных строк (рис. 5.5.3-5.5.5). 


` 
(| 
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Puc. 5.5.5. Пример выделения автомобильного помера па дорожной сиене 
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Проверка обнаруженных объемлющих прямоугольников. Основным свойством 
внутренней структуры штрнхового кода является параллельность штрихов. Для про- 
веркн этого свойства было предложено использовать оригинальный детектор одинако- 
вой направленности граднентов — отношение аспекта. Пусть вектор граднента в точке 
(x,y) : g(x,y) = (9,(z. y). gy(z.y)). Тогда матрица обобшенной дисперсин градиента g 
no областн А примет вид 


S2 Su 
511 So 


E- ‚ 8= Y. (Plon). 


iz u)€A 


Отношение аспекта является отношением собственных значений (А, ,А2) этой мат- 
рицы: F = № (Л, > A2). Отношение аспекта F будет велико в том случае, когда на 
областн А имеется множество точек с одинаково направленными градиентамн, H ма- 
ло, если распределение градиентов по направленням приближается к paBHoNepHoMy. 
Преобладающее направление граднентов на области А соответствует направлению 
наибольшего собственного вектора матрицы E. 


5.5.3. *Анализ свидетельств при использовании реляционных моделей. 
Иерархическая индексация атрибутироваииых реляционных моделей. Введем 
описание класса структурных моделей H соответствующего класса алгоритмов их прн- 
вязки (индексации) на реальных изображениях в рамках reopuH графов ([63], [69]). 
Для этого дадим несколько необходимых определений. 

Реляционной моделью объекта называется пара (V,G), где У — множество 
элементов, входящих в состав объекта; G — множество отношений (связей), опре- 
деленных на множестве элементов У. Пусть дана реляционная модель объекта, со- 
стоящая нз: 

1) атрибутированного множества элементов У = (vy,a(v,)). гле a(vx) — мно- 
жество атрибутов соответствующего элемента Uk; 

2) множества реляционных предикатов РВ" = {рг*{{а(и,) :v, Е S(gF) C VYY. 
принимающих значение «истина», если множество элементов (v;). характеризуемых 
соответствующими атрибутами (a(v;)) связано отношением g“. 

Тогда описание такой реляционной модели всегда можно представить B HCKOTO- 
рой стандартной форме, в виде соответствующего атрибутированного реляционного 
гиперграфа h= {У,С"} такого, что множество его вершин У совпадает с множе- 
ством элементов модели У, атрибуты вершин равны атрибутам соответствуюших 
элементов {а(0,)}; гиперребра g^ соединяют подмножества элементов S(g^) C V. 
если множество элементов (vi) Е S(g?), характеризуемых соответствующими атрн- 
бутамн {а(о;)} может быть связано отношением g^, причем каждое гиперребро rH- 
перграфа g^ характеризуется соответствующим атрибутом отношения, равным pr^. 
Далее мы ue будем различать собственно реляционную модель H соответствующий ей 
гиперграф. 

Реляционной моделью объекта порядка k называется модель, описываемая ре- 
ляцнонным гиперграфом, таким, Что максимальный порядок входящих в него гнпер- 
ребер равен k. Пусть даны две реляционные моделн одного H того же объекта О — 
№. (О) = {И, СЯ} н №%(0) = {\,С®}. Тогда, если любому элементу v9 € V} можно 
единственным образом поставить в соответствие некоторый подграф S(v2) C hi, гово- 
par, что модели №! (О) к А2(О) образуют иерархию описаний объекта О или, что то 
же самое, иерархическое реляционное описание h(O) = (h,(O), h3(O)). где h2(O) — 
верхний уровень иерархии, а (О) — соответственно, нижний. 
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Пусть дано керархическое реляционное опнсание h(O) = {hi (0).12(0)} = {{\,, 
GF}, (V, GZ)). Тогда, если любому элементу 94 Е GË можно единственным образом 
поставить в соответствие некоторое подиножество 5(9%) C СП, причем соответству- 
ющий атрибут prË однозначно представляется как булевская функция атрибутов из 
С' (98), будем называть структуру связей такой модели иерархически индуцирован- 
ной. В 

Пусть дано множество типов элементов (алфавит) U = (U;). Еслн для некото- 
poro множества элементов V = {vk} существует однозначное отображение Ty: У — И, 
говорят, что V — множество элементов, типизированное относительно (7, а любой 
его элемент и: T,(v) = U;, v € имеет mun U; Е U. 

Пусть дано множество типов элементов U = {И;} н множество типов отноше- 
ний R(U) = (Rj((Ux),)). rae {Uk € U); — соответствующие множества тнпов эле- 
ментов, входящих в отношение данного типа Rj. Если для некоторого множества 
связей СЁ = {9*({ик};)} существует однозначное отображение T, : G^ — R, говорят 
что СЁ — множество отношений, типизированное относительно R(U), а любой 
его элемент 9: То(9) = Rj((Tv(v.));). g є С“ имеет mun В; Е R. 

Пусть дан некоторый реляционный гиперграф h = {У,С*}. Если V типизировано 
относительно некоторого множества типов элементов U н G^ типизировано относн- 
тельно некоторого множества типов отношений (17), то гиперграф h в целом также 
называется тилизированным, причем его типом или свободной моделью Ty (В) = 
= (U, R(U). T.(V). Tu(GP(V))) называется граф такой же топологии, вершины KO- 
торого помечены типамн вершин (элементов) графа h, а ребра — типамн гиперребер 
(отношений) графа h. 

Пусть дан некоторый тип гиперграфа H. Тогда любой гиперграф g такой, что 
Т, (9) = Н называется реализацией свободной модели Н с обозначением g = (Н). 

Наконец, можно дать следующее определение свободной структурной нерархичес- 
кой моделн. Пусть дано нерархическое реляционное описание k(O) = (h (О), ћ(0)} = 
={{И, GF}, {и,СЯ}} с нерархически индуцированной структурой связей, npu- 
чем А, (О) — типизированный гиперграф относительно множества типов (U, R(U)). 
Свободной структурной иерархической моделью или типом объекта Т(О)= 
= (U, R(U).G",GF(G")) = {0,В(И),Ть(У,),Ть(СЯ)} будет называться гиперграф той 
же топологин, что н (О), вершины которого помечены типамн подграфов Th (S(v2)) : 
S(v,) См, vz € Vj, а ребра — типами подграфов Т,(5$(94)) : 592) СС", gf Е СА. 
При этом описание hi(O) называется реализацией модели Т(О). 

Перейдем к построенкю конструктивной процедуры анализа нзображення на OC- 
нове введенного класса неоднородных структурных моделей. 

Пусть дано множество элементов V, типизнированное на множестве типов U. Под 
индексацией свободной модели объекта Т.(ћ) = (U, R(U), TA (V), T&(GP(V))) на мно- 
жестве элементов У будем Поннмать такое отображение Г: Ть(У) — И, что получае- 
мый в результате гиперграф I, (T4(h)) = {У.С®(У)} = (T.(h)) является реализацией 
свободной моделн T, (А). Аналогичным образом, под индексацией свободной струк- 
турной иерархической модели объекта Т(О) = (U, R(U), GU ,GP (GU) на множестве 
элементов V будем понимать такое отображенне I; : G^ — V, что получаемый B pe- 
зультате гиперграф /2(Тһ(А)) = (V,GP(V)) = (T(O)) является реализацией свободной 
нерархической моделн Т(О). 

Можно доказать следующее утвержденне. 

Утверждение 1. Пусть дано множество элементов V, типизнрованное на MHO- 
жестве типов U. Тогда для существования нндексацин [2 свободной структурной 
иерархической модели объекта T(O) = (U, R(U), GY, GP(G)) необходимо и доста- 
точно, чтобы существовал такой набор корректных индексаций структурных элемен- 
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тов (li(g")). 9° € GU, что при их полстановке в GU условия связей G" (I, (GU) 
становятся истинными. 

Данное утверждение определяет очевидную конструктивную модульную (двух 
этапную) процедуру обнаружения н ндентификации объекта, описываемого струк 
турной иерархической моделью (в отсутствие шума н искаженнй): 

1) определить /, = {{11(9°)}, 07 € GU) — множество всех возможных индексациі 
каждого элемента из G' на элементах из V; 

2) определить индексацию I7 = (7,(g")), g" € GP гутем выбора из I, соответ 
ствующего «непротиворечивого» набора ннлексаций IF = (Ii (gU)), g" є GU. 

На первом этапе элементы из GU являются различимыми лишь C точностью до TH 
па. Поэтому для ux окончательной ндентификации необходимо осуществить проверк! 
связей в соответствии с заданной структурой отношений СК, Заметим, что при этом 
один н TOT же элемент v € V может одновременно быть использован при индексации: 
нескольких элементов из GU н С. Заметим также, что данная процедура осуществ 
ляется «снизу вверх», так как на первом этапе обнаруживаются элементы первог‹ 
уровня (характерные черты), a на втором этапе из них собирается объект. 

Вероятностные аспекты процедур индексации. Рассмотрим процесс регистра. 
цик элементов H3 V на изображении в условиях наличия шумов H искажений. Опре. 
делим наблюдаемую статистнку E = (e, = е(гк)} как совокупность событий, заклю. 
чающихся в независимой регистрации событий из V и соответственно опнсываемук 
вероятностной моделью регистрации {Г(ек/иь)}. С учетом типизации множеств: 
элементов можно определить следующую типизацию событий. Пусть дано множестве 
элементов V, типизированное множеством типов U, тогда регистрируемая статисти: 
ка E(V) := (ey =е(ик)} является типизированной тем же множеством типов U. Е 
условиях наличия помех H искажений необходимо рассматривать следующую моделе 
регистрации, в общем случае, типа шума замещения; 


P([e(c) : Tete) = ИД Це: ТА) =U;}) = Py = 
= Р({1.(е(0)) = 0, }/(Т. (v) =U,}), U,U; €U. (55.1) 
Заметнм, что B модели (5.5.1) события из Е становятся различимыми только с 
точностью до типа. . 
Теперь можно сформулировать задачу апостернорной вероятностной индексации 


свободной структурной модели по набору наблюдений E. Пусть свободная модель 
M = (U.R(U), T. (V). T((G'(V))) описывается вероятностной моделью 
( 


РМ. Е) = PEL). Gh (TQ). MPO), GP (I (4(V)). М) (5.5.2) 


rae P(E/T (V). GP(I(Th(V)). M) определяется выражением (5.5.1); 

P(I QR ) GP (ТУ), M) — (1, если I (T.(V)) — корректная индексация M 
на V; 0 — в противном случае}. 

В таком случае, оптимальной апостериорной индексацией свободной структур- 
ной модели ЛГ по набору наблюдений Е будет такая индексация Г!(Т»(У)), кото- 
рая доставляет максимум значению апостернорной вероятности с учетом выражений 


(5.5.1) к (5.5.2): 
Ih (1, (V)) = argmax P (E/M.1). 


Пусть лана структурная модель объекта M = {V.G"} н регистрируется статистнка 
E(V) = (ex].ey = е(ок). гк € V. Пусть также существует фахторизация 


Р(Е/М) = [[to«CE/u))  [[(o. (Е/ч®)} . (5.5.3) 
k a 
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где ок (Е/сь) є [0. 1. uceVy- „парциальные условные вероятности, связанные C эле- 
ментами, а с,(Е/9') є [0,1], ЛЕС" — парцкальные условные вероятностн. связан- 
ные с их отношениями. Тогда парциальной вероятностной структурной моделью 
объекта назовем граф той же топологин, что H исходная модель ЛГ. вершины Ko- 
торого помечены парцнальнымн BeposTHOCTRMH 0;(/А/1;). а ребра — парциальнымн 
вероятностями сі (Ё/ик). 

Пусть дана свободная структурная модель объекта M = (U, R(U). Ti (V), Tu (GP)) 
н регистрируется статистика №(У) = {ск}, ск = (гк), ик Е V. Пусть также T 
eT факторизация 


P(EjM) = [| teCE/r() (о, (E/14(2))) . (5.5.4) 
k s 


где о(Е/Т»(%к)) € [0.1]. T (vx) € 1(У) — парцнальные условные ei связы- 
вающие типы событий с типами соответствующих элементов, a 0,(£/ T» (91) ) Е [0.1], 
Thig?) Е T, (GP) — парцкальные условные вероятностн. связанные C типами отноше- 
ний между событиями. Тогда свободной парциальной вероятностной структурной 
моделью объекта будем называть граф такой же топологин, вершины которого поме- 
чены парцнальнымн, вероятностямн с(Е/7,'ок)), а ребра — парцнальнымни вероят- 
ностями 0,(/:/7. (98). 

Свободную парцкальную структурную вероятностяую модель объекта можно счи- 
тать траксляционно-инвариактной. если 


Р(Е/М) = еч (Е/Т())}: П E/Ty(gP))). (5.5.5) 


то есть парциальные BeposTIIOCTH зависят только от типов элементов или их OTHO- 
шений, но не зависят от их положения в модельном гиперграфе. UN этом набор 
трансляцнонно ннварнантных парцкальных вероятностей (o Tues) )) называется 
непосредственно индуцированным на У. если для любого g, выполняется 


c(E/T.(g5)) = [[ (o(e/v2 : тк Е 9). 


k 


Пусть теперь дана некоторая свободная парциальная модель 
M = (UR). Ta (У). ТМС"), (6 (E/T«(.))) - (e (E/1»(92)))) 


Реализацией свободной модели M на мяожестве событий E является любой гн- 
перграф той же структуры h(E, M), вершины которого помечены событиями из E. 
При этом Рх-допустимой реализацией моделн M на статистике [7 является mo- 
бая такая реализация h( E. M), для которой P(h(E, M)/M) > Px, где P(h(E.M)/M) 
определяется выраженнем (5.5.5). Соответственно Pa а О c60- 
бодной модели М = (U. R(U),TA(V ).TA(G^), (o(E/T.( vk) } (o(E/Th(gB)))) на мно- 
жестве событий E является любое отображение Г: T,(V) — Е, в результате которого 
получается допустнмая реализация (Е, Г) : P(h( E, M)/M) 2 Pa. Оптимальной ano- 
стериорной индексацией свободной парцнальной стоуктурной модели M по набору 
наблюдений E будет такая нндексацня Г(Т»(У)), которая доставляет максимум зна- 
ченкю апостернорной вероятности с учетом выражения (5.5.4): 


I(T4(V)) = arg max P (h(E, 1)/M). 
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Пусть дан некоторый набор парцкальных вероятностных структурных моделей 
T(G"). Множество Ра-допустимых индексаций этнх моделей на множестве собы- 
тий E назовем х-пространством гипотез и обозначим как «(Т(СУ)) = ((I(g", E)). 
g” € G", P(I(g", E)/T(g")) 2 Px}. Для отдельных элементов модели мы также бу- 
дем говорить © Р»-допустнмых нндексациях, нмея в BHAY уровень их парцнальной 
вероятностн. 

Утверждение 3. Пусть дана некоторая свободная парциальная структур- 
ная иерархическая модель объекта М = (U, R(U), T(G"). T(GP), (o(E/T(gE))), 
(c(E/T(gR)))) u пусть дано множество событнй E. Тогда любая Р, -допустнмая HH- 
дексацня /: T,(V) — E свободной моделн М на множестве событий Е может быть 
представлена в виде комбинацин 
Iz lz о I, 


где 1, — Р, -допустимая индексация Iz: СО — a(T(GU)); I, — Ры-допустнмая нндек- 
cauna /, : «(T(GV)) — E; a(T(G")) — о-пространство гнпотез для T(G") на Е. 

Доказательство. Пусть ћ — Ра-допустимая реализация данной нерархиче- 
ской модели. Разобьем гнперграф h на две части: h = (hi, h2), где hi — некоторый 
подграф hi С h; h = (h/h,). причем h2 содержнт не только те вершины нз h, которые 
не входят в hi, H связи между HHMH, но H все связи между элементами hı н элемента- 
MH M. При этом, группируя соответствующе сомножителн, (5.2.9) можно представить 
в виде 


P(h/ E) = c(l /E)- c(ha/ E) 
н значит, условие P4-nonycruMoctH данной реализации h примет вид 
P(h/E) = c(h /E)- о(һ/Е) > Px. 


Отсюда 
c (h,/ E) > Px/o(ha/ E), 


нс учетом условня 0 < о(А:/Е) < 1 окончательно нмеем 
9(h;/ E) > Pa. 


Поскольку это рассуждение справедливо для всех элементов нз СС, значит, эле- 
менты нз T(G") действительно могут реалнзовываться только на a(T(G")). Что и 
требовалось доказать. < 

Утверждение 3 позволяет определить следующую конструктивную двухэтапную 
процедуру построения Лх-допустнмой реалнзацни нсрархе ческая парцнальной струк: 
турной модели M = (U. R(U), T(G"), T(G^), (o(E/T(gE ))}. (o(E/T(gP)) ). 

1) Построить a(T(G")) путем Рх-индексации элементов нз T(G" ). 

2) Индексировать модель М элементами из ж(Т(С“)) таким образом, чтобы pea- 
лизацин отношений из T(GP) также были Р, -допустнмымн. 

Если в результате такой двухэтапной процедуры индексации будет построена неко- 
торая реализация модели M, то она, как следует из утверждення 3, будет Pa 
допустимой. 

Объединение свидетельств прн нндексацин реляцнонной моделя. Рассмотрим 
теперь задачу нндексацин свободной нерархической парциальной моделн как задачу 
объединения свидетельств [67]. 

Пусть дана полная группа альтернативных гипотез H = (Hi), ГР(Н.) =1/М, i= 
=1.....М н дано событие X : Р(Х) = Р(ХС). где Р(Х) — алриорная вероятность 
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события X, (ХС) — равная апрнорная вероятность того, что событие X не произо- 
шло. Тогда байесовским правдоподобным свидетельством событня X относительно 
гипотезы Н; назовем величину 


P(X/Hi) 


P(H/X) ==, 

(4/2) = = рн) 
где P(X/ Hi) — соответствующие условные вероятности событня X. Правдоподобны- 
ми свидетельства такого рода названы потому, что при TaKHX условиях решение по 
максимуму апостернорной вероятности в точности соответствует решению по методу 
максимального правдоподобня. 

Пусть теперь дана некоторая событийная парциальная модель М = (U, R(U),V, 
GP, (o(E/v.)), (o(E/gB))). Соответствующей свидетельской правдоподобной nap- 
циальной моделью М = {U, Н(И), У, С", {1 (вк /Е)}, (Q(gB/E))) назовем гиперграф 
такой же топологии, вершины которого помечены парциальными правдоподобными 
байесовскимн свидетельствами N (Е /*к), а ребра — парциальными свидетельства- 
ми $, (98 /Е). 

Утверждение 4. Пусть дана иерархическая свидетельская правдоподоб- 
ная парциальная модель . 


M, = {U, RU ),G! GR, (a (g^ / E) ), {9 (9 /E)))- 
Тогда парциальные правдоподобные байесовские свидетельства вида 


o, (E/g*) 
$5, 9;(E/s"; 


Е/9*) 
9 (g*/E) = < , Q(gh/E) = 
могут объединяться no правилу 


П, 9098/5) П, o? /E) 
Y; [IL auf; TL ове) 
Это утверждение проверяется непосредственной подстановкой. 


Таким образом, правило объединения парциальных правдоподобных свиде- 
тельств имеет вид 


Р(М/Е) -Q(MJE) = 


80/9 )9(Hi/92) 
$5,905/9)90;/92) 

Можно также доказать следующее вспомогательное утверждение. Пусть дана 
нерархнческая свидетельская правдоподобная парцнальная модель М; = (U. R(U), GU, 


Gh, (Q(gI*/ E)), {Uge н пусть парцнальные правдоподобные байесовскне CBH- 
цетельства удовлетворяют условиям 


@(Н./9, 92) = 


Q(gl/E)204, К=1.....К; Q(gf/E) 294205, 8=1....,5. 


Тогда 
Р(М/Е) = Q(Mi/ E) 2 f. 


Введем еще несколько определений. Пусть дана некоторая иерархическая CBH- 
детельская правдоподобная парциальная модель М; = {U, R(U),GU , GP, (Q(gL* / E)). 
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Е Aoc duc Е АСО 
{Q(g / E)). Ял-допустимой индексацией свободной модели M на множестве co- 
бытий E будем называть любое отображение Г: Т»(У) — E, в результате которого 
получается допустимая реализация h(E, /) : P(Mjh(E, M)) 2 Ча. 

Пусть дан некоторый набор парциальных вероятностных структурных моделей 
T(G"). Множество )х-допустнмых нндексаций этих моделей на множестве ‚собы- 
тий Е назовем Л-пространством гипотез н обозначим как A(T(GU)) = ((T(gU. E), 
Tg") Е T(G* ). Q(g" / E) 2 Ra}. 

Ha основании этих определений H приведенного выше вспомогательного yTBep- 
ждения можно доказать следующее утверждение: 

Утверждение 5. Пусть дана некоторая иерархическая свидетельская прав- 
доподобная парциальная модель M; = (U. R(U). С! СЕ, {Q(g / E)), {0(9**/Е)}} и 
пусть дано множество событий E. Тогда для данной свободкой моделн M н данного 
множества событий E любая ()4-nonycTHuas индексация /: Т,(У) — Е может быть 
представлена в виде комбинации 


I-2bhol; 


где 15 — Ях-допустнмая индексация Iz: GU — A(T(GU)); [1 — О -допустнмая индек- 
сация /,: A(T(G 1) — Е; A(T(GU)) — А-пространство гипотез для T(GU) на Е. 

Это утверждение является аналогом утверждения 3 для свидетельских моделей, 
н смысл его заключается B TOM, что любая f),-nonycTHMa8 реализация некоторой 
нерархнческой свидетельской правдоподобной парциальной модели может содержать 
в качестве подграфов только f24-nonycTHMbie реализации соответствующих парцналь- 
ных моделей подграфов 

Пусть парциальная вероятностная модель в данном случае является непосред- 
ственно нидуцированной. Тогда соответствующая утверждению 5 конструктивная 
двухэтапная процедура обнаружения объекта, описываемого структурной моделью 
M = (U. I(U).GU GF, {99 Г / k)). (098 /E))). примет следующий вид. 

1) Путем голосования и аккумулирования лервичных свидетельств обнаружить все 
составные структурные элементы (gj) такие, что {1 (90 /Е)} 2 Пл. 

2) Путем аккумулнрования первичных свидетельств о связях индексировать MO- 
дель M элементами из A(GU) таким образом, чтобы реализации отношений из GF 
также были Пх-допустимыми. 

Построенная в результате этой процедуры индексация модели М будет в таком случае 
также х-догустимой. 

В заключение рассмотрим вопрос о TOM, как соотносится введенный HAMK класс 
парциальных структурных моделей с известнымн в теории вероятности классами COB- 
местных вероятностных распределений множеств событий. 

Марковские реляционные гнперграфы. Прежде всего, отметим, что в случае 
структурных нерархических объектов само выделение типизированного множества 
составных элементов (гипотез промежуточного уровня) основано на предположении, 
что связи между событнямн, опнсывающими составляющие этих элементов, теснее 
(илн носят другой характер) по сравнению с межэлементными связями первичных 
событий. Таким образом. нас интересуют лишь такне вероятностные моделн, в кото- 
рых каждое событне влияет на ограниченное конечное подмножество множества всех 
событий. В теорин вероятности для описания групп случайных переменных такого 
тниа используются так называемые марковские системы, описываемые гиббсовским 
законом распределения. 

Пусть дапо некоторое дискретиое конечиое множество случайных переменных 
X = (xij. на котором топология опоеделена заданным набором соответствующих 
окрестностей О(г). г; € O;(r,). Пусть также на множестве X для данной системы 
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окрестностей выполняется следующее марковское свойство: 
p(zi/ X) = p(zi/O(zi)). Vzi € X. 


Тогда совместный закон распределения наблюдаемой системы Х будет опнсываться 
выраженнем 


T (г 
Р(Х) = [Leere 2=у` UEC (5.5.6) 
x i 

где T;(.) — локальные передаточные функции (local transfer functions), Z — Hop- 
мализующий делитель, а У, [.| означает сумму ilO всем возможным реализациям 
X. Если т;(.) не зависит oT i, то такое распределение называется трансляционно- 
инвариантным. 

Пусть теперь гиббсовским законом (5.5.6) описывается условиое распределение 
множества влняюших событий Х относительно гипотезы Н: 


P(X/II) = IUS ROB). (5.5.7) 


rae Z = У Пт О(2:)/ Н). 
Как видно, разница с введенной ранее моделью факторизации (5.5.3)- (5.5.5) 
заключается лишь в иаличян множителя (1/2). Таким образом, условне 


Z УЦ (0/(95)] 2 1 (5.5.8) 
X Г 


является достаточным для того, чтобы в марковской моделн (5.5.7) имела место 
факторизация 


P(X/H) = [о (0:/(2)Ħ). (5.5.9) 


Согласно принятой термннологин [70] марковские системы, описываемые выраженн- 
ем (5.5.6), называются существенно разделимыми (mutually compatible) (MC-MRF). 
Там же указано следующее достаточное условие существования тгкой факториза- 
JHH: 

Ув, (От И) = 1. V x: € X. VO) € X. (5.5.10) 


zi 


где У`,, — сумма по всем возможным реализациям случайной переменной T.. Из 
(5.5.16) непосредственно следует (5.5.8). 

Легко убедиться, в частности, что непосредственно индуцированная система пар- 
циальных вероятностей, соответствующая случаю пезавксимых событий, удовлетво- 
ряет условию (5.5.10), а значит, является частным случаем более широкого класса 
МС-МВЕ (5.5.9). 

Пусть дана некоторая структурная свободная парцнальная модель 


М = (U. R(U) T (V). Tu (GP), {9 (БИТЬ (н) {6 (Е /Ть (91))). 


представленная B зиде гиперграфа, вершины которого помечены парцнальнымн BE- 
роятностями ох Ё/Т, (о). а ребра — парциальными вероятностями 0% (Ё/Ть (gP)). 
Тогда соответствующая мерковскся (MC-MRF) структурная свободная модель M 
представляет собой систему случайных переменных У, соответствующих вершннам 
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данного гиперграфа, на которой топология задана таким отношением соседства, чт‹ 
любой окрестности О на У может быть поставлено в соответствие некоторое ги: 
перребро из М, причем локальные передаточные функции этих окрестностей равнь 
соответствующим парциальным вероятностям гиперребер модели. 

Таким образом, изложенную в данном разделе методику объединения парциальны> 
свидетельств можно назвать методикой объединения марковских свидетельств, г 
используемый класс структурных моделей соответственно классом марковских реля: 
ционных гиперграфов (МРГ). 

Можно рассмотреть и более общий случай анализа структурных свидетельств. 
когда условия марковости парциальных свидетельств не выполняются. В работе [71] 
показано, что в этом случае методика объединения свидетельств позволяет формиро- 
вать лишь две различные независимые оценки достоверности гипотезы (BEL, PLS}, 
являющиеся границами доверительного интервала [BEL, PLS} в случае, если все ro- 
лосующие парциальные свидетельства являются подкрепляющими (Nha > 0,5). 


5.5.4. Литература для самостоятельного изучения. В книге (Форсайт, Понс) 
[44] в главе 15 «Сегментация через подбор модели» описано преобразование Хафа (в 
данном переводе названное преобразованием Хоха), его различные модификации, а 
также дано описание процедур голосования как процедур вероятностного вывода (в 
нашей терминологии — анализа свидетельств на изображениях), В главе 23 «Pacno- 
знавание через связь шаблонов» описаны соответствующие вероятностные подходы к 
построению методов голосования для поиска сложных трехмерных объектов, а также 
скрытые марковские модели и методы распространения свидетельств. 

Основной первоисточник, связанный с анализом свидетельств, — Shafer G. А 
Mathematical Theory of Evidence. — Princeton Univercity Press, 1976. [332] 
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C.26-32. [71] 


5.6. Контрольные вопросы и задачи 


К разделу 5.1. 

1) Каковы основные принципы математнческого моделирования изображений? Чем 
абстрактное моделирование отличается от физического? 

2) Какие основные классы математических моделей, используемые в анализе изоб- 
ражений, вы знаете? 


5$ КОНТРОЛЬНЫЕ ВОПРОСЫ И ЗАДАЧИ 353 


3) Что дает представление изображения как двумерной функции? 

4) Что дает представление изображения как множества точек? 

5) Что дает представление изображения как набора топологических или геометри- 
ческих объектов? 

6) Что дает описание изображения вектором независимых признаков? 

7) Что дает рассмотрение изображений как элементов некоторой алгебры? 

8) Как описать изображение графом отношений между его элементами? Что дает 
представление изображений и объектов на них в виде графов? 

9) Как описать изображение как «высказывание» в некоторой «двумерной грамма- 
тике»? Что это дает? 

10) Что дает описание изображения как проекции (одной из проекций) трехмерной 
сцены? 

11) Что такое «модельный подход» к англизу изображений? 

К разделу 5.2. 

12) Что такое преобразование Хафа? Какая параметриазция прямых линий исполь- 
зуется в классическом преобразовании Хафа? Какие другие способы параметризации 
прямых вы знаете? 

13) Как связано преобразование Хафа с методом общих геометрических мест? 

14) Как осуществляется анализ аккумулятора при поиске геометрических прими- 
тивов в методах голосовання? | 

15) Что такое преобразование Радона? Как связано преобразование Хафа с преоб- 
разованием Радона? 

16) Как выполняется преобразование Хафа для поиска окружностей? Какие другие 
аналитические кривые можно искать с помощью методов голосования? 

17) Что такое обобщенное преобразование Хафа? Какие объектов на изображени- 
ях можно искать с его помощью? Как обеспечнвается инвариантиость к вращению 
объектов? 

К разделу 5.3. 

18) Каковы основные принципы использования трехмерных моделей объектов для 
решения задач машинного зрения? Как при этом соотносятся машинное зрение и 
геометрическое моделирование? 

19) Что такое системы автоматизированного проектирования (САО)? Почему CAD- 
модели целесообразно использовать в задачах машинного зрения? 

20) Какие типы трехмерных моделей вы знаете? 

21) Чем различаются между собой проволочные, твердотельные и воксельные MO- 
лели? 

22) Что такое «обобщенные цилипдры» и как они позволяют описывать трехмерные 
объекты? 

23) Что дает описание трехмерных объектов многопроекционными представления- 
MM и ракурсными графами? 

24) Каковы основные геометрические свойства кривых и лннеаментов? 

25) Каковы основные геометрические свойства трехмерных поверхностей? 

26) Каковы основные геометрические отношения между трехмерными геометриче- 
скими примитивами? 

К разделу 5.4. 

27) Каковы основные этапы построения реляционной модели на оспове CAD- 
модели? 

28) Каковы основные подходы к сравнению графовых моделей? 

29) В чем заключается задача индекснрования графовой модели? Каковы основные 
существующие подходы к ее решению? 
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30) В чем заключается структурно-лингвистический подход к анализу образов? 
Как он может быть применен к анализу изображений? 

31) Что такое логическое программирование? Как соотносятся между собой декла- 
ративное описание объекта и процедура его обнаружения и идентификации? 

32)Какие преобразования моделей являются эквивалентными? Какие типы мета- 
алгоритмов можно выделить среди процедур анализа изображений? 

33) Задача: Пусть объект описан как (круглый) и (красный) и (заданного размера). 
Какая процедура анализа цветного изображения соответствует такому описанию? Как 
изменится эта процедура, если предикаты будут переставлены следующим образом: 
(заданного размера) и (круглый) и (красный)? Предположите, что в вашем распоря- 
жении имеется некоторая обучающая выборка типовых изображений. Какие тесты 
следует провести, чтобы определить оптимальный порядок следования предикатов в 
модели? 

К разделу 2.5. 

34) В чем заключается идея анализа свидетельств на изображениях? 

35) Какие осповные способы повышения вычислительной эффективности опреде- 
лены в рамках метода анализа свидетельств па изображениях? 

36) Что такое «схема объединения свидетельств»? При каких условиях становится 
возможным независимое объединение свидетельств? 

37) Что такое «иерархическое объедипение свидетельств»? При каких условиях оно 
возможно? 

38) Какую выгоду приносит декомпозиция и редукция вектора параметров модели? 
Как соотносятся исходная модель и модель с редуцированиым набором параметров? 

39) Какую выгоду приносит загрубление модели объекта? Как соотносятся исход- 
ная и загрубленная модель? 

40) Почему необходим этап повторного анализа изображения? Проиллюстрируйте 
на примере решения задачи обиаружепия штриховых кодов и текстовых областей на 
изображениях. 

41) Как происходит объединение свидетельств при индексации реляционной моде- 
ли? 

42) Что такое «скрытая марковская модель»? В чем заключается схема объедиие- 
ния марковских свидетельств? 


5.7. ПРАКТИЧЕСКИЕ ЗАНЯТИЯ по теме «Обнаружение объектов» 


5.7.1. Преобразование Хафа. С преобразованиями Хафа можно познакомиться в 
системе Pisoft, используя при этом фрейм HT Hough из закладки «Трансформации» 
палитры фреймов. 

Для того чтобы лучше прочувствовать особенности преобразования Хафа, мы ре- 
комендуем читателям самостоятельно проделать ряд экспериментов с искусственными 
бинарными изображениями, которые каждый может самостоятельно создать в любых 
простейших программах-редакторах (например, в Paint). Меняя форму, количество и 
конфигурации элементов этих тестовых изображений, вы сможете исследовать пове- 
дение локальных максимумов и других свойств аккумулятора пространства Хафа. 

Набор возможных простейших экспериментов показан на рис. 5.7.1-5.7.10. 

Начнем с изображения, содержащего всего одну точку. На рис. 5.7.1 мы приводим 
пример такого изображения (точка здесь изображена как маленький кружок, чтобы ee 
образ в простраистве Хафа был лучше заметен). В меню фрейма HT Hough выберем 
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стандартное преобразование. Результат преобразования Хафа отображен в правом 
экне на рис. 5.7.1. Как видно, это часть синусоиды. 
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Рис.5.7.1. Преобразование Хафа от одной Tos- 
ки. Слева исходное изсбражение, справа — со- 
ответствующий аккумулятор Хафа. Точки, nome- 
ченные маркерами в пространстве Хафа. отобра- 
жаются соответствующими линиями на исход- 
ном изображении 


Рис.5.7.3. Преобразование Хафа от множества 
точек на одной нрямой. Данной прямой coot- 
ветствует глобальный максимум в аккумуляторе 
пространства Хафа 
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Рис. 5.7.2. Преобразованке Хафа от двух то- 
чек. Пересечение функций отклика в аккуму- 
ляторе соответствует прямой, проходящей через 
две точки на исходном изображенин 


Рис. 5.7.4. Преобразованне Хафа от множества 
точек на одной прямой в присутствии помехо- 
вых точек, Глобальный максимум в аккумулято- 
ре поостранства Хафа остается устойчивым нри- 
знаком искомой прямой 


Воспользуемся режимом «источник-приемник», чтобы выяснить, каким прямым B 


пространстве (Х.У) соответствует эта кривая в пространстве (р.9). Правой клавишей 
мыши, наведенной на исходное изображение (окно слева), вызовсм коитекстиос меню 
и укажем, что это изображение — «Источник». Изображсиис аккумулятора преобразо- 
вания Хафа обозначим как «Приемник». Левой клавишей мыши поставим несколько 
пронумерованных маркеров вдоль кривой отклика данной точки. На изображении- 
«Источнике» появятся прямые, пересекающие данную точку под разными углами. 
Номер прямой соответствует номеру маркера на изображении аккумулятора Хафа. 
Заметим также, что кроме этого, в фрейме преобразования Хафа реализован спе- 
циальный режим демонстрации геометрического смысла нормальной параметризации 
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прямой (5.2.1). При движении указателя мыши в окне аккумулятора Хафа (окно 
справа на рис. 5.7.1) по окну с исходным изображением перемещается линия, отобра- 
жающая прямую, описываемую уравнением X соѕӨ + Y ѕіпӨ = р с параметрами (р, Ө), 
соответствующими текущему положению курсора. 

Добавим еще одну точку на изображение (рис. 5.7.2). С использованием режима 
«источник-приемник» убедимся, что пересечение функций отклика в аккумуляторе 
соответствует прямой, проходящей через две точки на исходном изображении. 

Добавим еще несколько точек на той же прямой (рис. 5.7.3) и убедимся, что теперь 
данной прямой соответствует единственный и хорошо заметный глобальный максимум 
в аккумуляторе пространства Хафа. 

Попробуем теперь добавить еще несколько помеховых точек (рис. 5.7.4). Экспери- 
менты показывают, что и в присутствии значительного количества помеховых точек 
глобальный максимум в аккумуляторе пространства Хафа остается устойчивым при- 
знаком искомой прямой в точечном паттерне. 

Перейдем теперь к экспериментам с отрезками прямых линий. На рис, 5.7.5 npu- 
веден пример преобразования Хафа от одной непрерывной прямой. При этом в ak- 
кумуляторе пространства Хафа, естественно, наблюдается единственный максимум. 
Фрейм простой мофрологии с операцией дилатации используется в этой учебной схе- 
ме только в целях улучшения визуализации результатов преобразования — от более 
толстой линии получаются более заметные локальные максимумы в аккумуляторе. 
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Рис.5.7.5. Преобразоваиие Хафа от одной Рис. 5.7.6. Преобразование Хафа от одной 

непрерывной прямой. В аккумуляторе простран- штриховой прямой в присутствии номеховых 

ства Хафа наблюдается сдииственный максимум отрезков других лииий. Глобальный максимум 
в аккумуляторе пространства Хафа остается 
устойчивым признаком искомой прямой 


Сделаем теперь линию прерывистой (штриховой) и добавим другие, более корот- 
кие помеховые линии (рис. 5.7.6). Эксперимент позволяет убедиться, что и в этом 
случае глобальный максимум в аккумуляторе пространства Хафа по-прежнему оста- 
ется устойчивым признаком искомой прямой. 

Пусть теперь на изображении имеется несколько интересующих нас прямолиней- 
ных отрезков — папример, стороны многоугольника на его контурном изображении 
(рис. 5.7.7). Легко убедиться, что значимые локальные максимумы в аккумуляторе 
пространства Хафа в этом случае соответствуют прямым, содержащим стороны мно- 
гоугольника. Интересно также заметить, что в силу специфической геометрии про- 
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странства Хафа («лист Мебиуса») локальные максимумы 5 и Ó оказываются здесь 
одним и тем же совпадающим объектом, соответствующим вертикальной прямой. 
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Рис.5.7,7, Преобразование Хафа от контурно- Рис, 5.7.8, Преобразоваине Хафа от нзображе- 

го изображения многоугольника. Значимые NO- ния многоугольника. Локальиыс максимумы в 

кальные максимумы в аккумуляторе простраи- аккумуляторе пространства Хафа эдесь соответ. 

ства Хафа соответствуют прямым, содержащим ствуют прямым, содержащим секущие локально 

стороны многоугольника максимальной длины (*днагомали» многоуголь: 
ника) 


Наконец, можно рассмотреть сплошную (не контурную) бинарную фигуру и пре- 
образование Хафа (Радона) от нее — скажем, на примере того же многоугольника, 
коптур которого мы анализировали только что (рис. 5.7.8). На этом рисунке мы сие- 
циально сохранили маркеры, отмечающие стороны многоугольника. Как видно, те- 
перь им уже не соответствуют локальные максимумы в аккумуляторе. Локальными 
макимумами теперь являются другие точки, геометрический смысл которых легко 
уяснить с помощью режима «источник-приемник»: это прямые, содержащие секущие 
исследуемой фигуры, имеющие локально максимальную длину (в данном случае — 
«диагонали» многоугольника). 

На рис. 5.7.9 показана форма вертикального (р = const) и горизонтального (0 = 
= const) профилей аккумуляторной функции в окрестности точки пространства Xa- 
фа, соответствующей одной из «диагоналей» многоугольника. Как видно, границе 
многоугольника здесь соответствует не максимум аккумуляторной функции, а резкий 
перепад сигнала в профиле (Ө = const). Отсюда следует идея обнаружения линейных 
границ сплошных фигур путем дифференцирования по р аккумуляторной функции в 
пространстве Хафа (рис. 5.7.10). При этом важен локальный максимум модуля пере- 
нада, а знак перепада зависит от того, осуществляется ли при увеличении р переход 
с фона на объект, или, напротив, с объекта на фон. В данном учебном примере 
для выделения горизонтальных перепадов в аккумуляторе используется т-компонента 
оператора Собела. 

С использованием описанных программных средств можно провести также немало 
других эксперимеитов с бипарными фигурами и контурами различиой формы. 
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Рис. 5.7.9. Форма вертикального и горизоитальиого профилей аккумуляториой фуикции в окрестио- 
сти точки простраиства Хафа. соответствующей «диагонали» миогоугольника 
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Рис. 5.7.10. Пример обиаружения лииейиых гранни сплошных фигур путем кахождения локальных 
экстремумов днффереицироваиной аккумуляторной функции дА(р, 9) /др в пространстве Хафа 


5.7.2. Модифицированное преобразование Хафа и поиск штриховых кодов. 
Рассмотрим теперь модифицированное преобразование Хафа и задачу обнаружения 
штрнховых кодов н тектсовых строк па нзображеиин. В меню фрейма HT Hough 
выберем граднентнос преобразованне (рнс. 5.7.11). 

Для ручного понска границ штрнхового кода воспользуемся режнмом «Источник- 
Прнемник» (рне. 5.7.12). Правой клавншей мышн, наведенной на исходное нзображе- 
нне (окно слева), вызовем KOIITeKCTHOC меню н укажем, что это нзображенне — «Ис- 
точник». Изображение, отображающее преобразование Хафа, обозначнм как «Прнем- 
HHK». Левой клавишей мышн поставнм четыре пронумерованных маркера на гранн- 
цах яркой областн нзображення-«Приемннка». На нзображеннн-«Источннке» появят- 
ся прямые, обрамляющне штрнх-код. Номер прямой соответствует номеру маркера на 
нзображеннн аккумулятора Хафа. 


ПРАКТИЧЕСКНЕ ЗАНЯТИЯ ПО ТЕМЕ «ОБНАРУЖЕНИЕ OBbEXTCB- 


Далес, для демоистрацни иден автоматического обнаруження 
штрнх-кода в пространстве параметров добавнм в схему обработ- 
кн фрейм ImMax, с помощью которого найдем локальные максн- 
мумы на нзображеннн аккумулятора Хафа. В меню фрейма вы- 
берем пункт «Локальные максимумы» (рис. 2.7.19). В окне днало- 
га (рнс. 2.7.20 и рнс. 5.7.13) укажем размеры апертуры, в которой 
будет осуществляться поиск, и количество нскомых MaKCHMyNOB. 
Найденные макснмумы (окна справа на рне. 5.7.13 н рне. 5.7.14) 
отмечены нумерованнымн маркерамн. Чтобы графнческн отобра- 
знть на нзображеннн аккумулятора Хафа найденные маркеры, так- 
же применнм средство «Источник-Прнемннк». Поле локальных 
максимумов (окна справа на рнс. 5.7.13 н рис. 5.7.14) обозначии 
как «Прнемннк». Выберем соответствующий пункт в контекст- 
ном меню окна нзображення (по нажатню правой клавншн мышн) 
(рис. 5.7.14). На рнс. 5.7.13 нзображенне аккумулятора Хафа отме- 
THM как изображение-«Источник», а Ha рне. 5.7.14 «Источннком» 
отмечено исходное нзображенне штрнх-кода. На нзображеннн «По- 
ле локальных MaKCHMyMOB» пометнм маркерамн четыре максиму- 
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Рис. 5.7.11. Меню 
фрейма Hough 
преобразования 
Хафа 


м. Ha рне. 5.7.13 n puc. 5.7.14 онн нмеют форму снежннок. Получнм четыре мар- 
кера на аккумуляторе Хафа (рис. 5.7.13) и четыре прямые, обрамляющне штрих-код 


(рнс. 5.7.14). 
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Рис. 5.7.12, Преобразование Хафа. Пример анализа изображении штрих-кода в режиме «источник- 
приемник». Исходное изображение штрих-кода — слепа. Справа — аккумулятор Хафа. ностроенный 


по изображению штрих-кола 
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Рис. 5.7.13. Обнаружение локальных макснмумов в аккумуляторе Хафа 
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Рис. 5.7.14. Обнаружение штрих-кода с использованием фрейма поиска локальных макснмумов 
imMax 


ГЛАВА 6 


МОРФОЛОГИЧЕСКИЙ АНАЛИЗ ИЗОБРАЖЕНИЙ 


Раздел «морфологнческнй анализ» стоит чуть особняком в структуре даниой KHH- 
гн, и поэтому переход к нему необходнмо предварить несколькими вводными сло- 
вамн. 

До снх пор логнка изложения матернала достаточно строго следовала концепцни 
«восходящнх уровней обработкн ннформацнн»: от растрового нзображення н мето- 
дов его обработкн — через методы выделения характерных черт — к решению задач 
обнаруження н ндентнфнкацнн объектов на основе структурных моделей. Казалось 
бы, все этапы обработки пройдены, и пора уже переходнть к опнсанию практнческих 
прнложений машинного зрения, которым, как и было ранее обещано. посвящена по- 
следняя глава книгн. Однако нам представляется, что прежде необходнмо еще раз 
взглянуть на пройденный намн путь несколько под иным углом. 

Существует нзвестная шуточная класснфнкацня научных работ на «гаечные» и 
«ключные». Исследователи-«гаечннкн» ‘сосредоточены на решеннн KOHKDeTHbIX NPH- 
кладных задач. Перед ними находится иекая` «гайка»-проблема, к которой нужно 
подобрать соответствующий «ключ»-подход, который позволил бы даниую пробле- 
му решнть. Для каждой проблемы приходится делать свой специфический «ключ». 
Даже если для закручивання одной н той же гайки методом «паучного тыка» при- 
дется отыскивать H нспользовать множество разных ничем не связанных ключей — 
исследователь-чгаечник» не виднт в этом ннчего страшного. Для него главное — 
чтобы практическая задача была решена. И по-своему он, безусловно, прав. 

Исследователь-«ключннк» ндет в своей работе от метода. Он старается создать 
такой упиверсальный «ключ», которым можно было бы единообразно отомкнуть MaK- 
снмальное число разнообразных проблем и прнкладиых задач. Такой подход глубоко 
укоренен в традиционном стремлении современной науки к поиску наиболее общих 
ответов и закоиомерностей. В фуидаментальных иауках, напрнмер в фнзике, ученые 
никогда не удовлетворятся существованием лншь частных теорий, которые хорошо ра- 
ботают в отдельных областях, но никак не связаны между собой. Отсутствие теорин, 
которая могла бы объяснить с единых познцнӣ весь круг рассматрнваемых явленнӣ, 
всегда воспринимается как вызов, и научиое сообщество не успокоится до тех пор, 
пока такая более общая теорня не будет построена, Хорошим примером такого рода 
является теорня относнтельностн, возннкшая в свое время в связи с пеобходнмостью 
построения единого основапия теории тяготения и теории электромагнитных явлепий. 

Еслн взгляиуть с этой точкн зрения на опнсанный в данной кинге математиче- 
скнй ннструментарнй обработки н аналнза нзображеннй, то представившаяся картнна 
будет крайне неприятно напоминать лоскутное одеяло. В машннном зрении с давннх 
пор наблюдается чрезвычайное разнообразне нспользуемых математнческнх моделей и 
методов прн полном отсутствнн каких-лнбо универсальных подходов (ситуацня «мно- 
го гаек» — «много ключей»). С одной стороны, радует возможность нспользования в 
задачах обработки нзображений элементов практически всех областей математики. С 
другой стороны, ощущается все-такн некая неудовлетворенность — неужелн не было 
в нашей областн наукн попыток создання обобщающих теорий, стремящнхся выявнть 
н реализовать нанболее общне механизмы представлеиня изображений н работы c 
ними? 
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Разумеется, былн. Однако в прикладной науке критерни успешностн того нли нно- 
го подхода определяются не только (н ие столько) обобщающей снлой построенной 
теорнн, сколько тем. насколько хорошо она позволяет решать каждую конкретную 
прнкладную задачу. Прн этом спецнальные ключи, подбнраемые под конкретную за- 
дачу, как бы неуклюже н сложио сконструнрованы OHH HH были, зачастую позволяют 
решить эту конкретную задачу ничуть не хуже, чем самый замечательный уннвер- 
сальный ключ. В результате исследователь-«ключник» часто оказывается в доста- 
точно смешном положенни: попытавшись создать пекнй универсальный «ключь, OH 
вынужден затем долгое время прнкладывать его к разлнчным «гайкам» в поиске тех 
задач, которые могут быть такнм методом решены лучше, чем нзвестнымн спецналнзн- 
рованными «ключами». Это создает у многнх практнческих разработчнков ощущенне 
того, что теоретнкн оторваны от жнзни н запимаются пустымн умствованиямн. На 
самом деле, конечно, это не так. 

Интерес к спецналнзнрованиым н уинверсальным методам я научном сообществе 
двнжется волиамн, В настоящее время фокус вннмания во всех компьютерных науках 
явно смещеи в сторону специализированных методов, но недостаток *упиверсальных 
ключей» уже ощущается, н маятник развнтня нензбежно должеи в ближайшее время 
вновь качнуться в сторону понска глубокнх обобщеннй. Мы самн, будучн no роду 
CBOHX занятнй, безусловно, практиками, вынуждены все чаще обращаться к поиску 
упиверсальных методов н оспований. Поэтому мы хотелн бы завершнть снстематнче- 
ское обсуждение методов обработкн и апалнза изображений рассмотрепием панболее, 
на наш взгляд, амбнцнозных обобщающнх подходов, созданных а области компью- 
терного зрения — математической морфологии и морфологического анализа. 

Термнн морфология дословно означает «наука о форме». Есть свои морфологнн 
в бнологни, апатомни, лнигвнстнке... И поскольку борьба за «поннманне» природы 
нзображеннй всегда была связана с попыткамн математической формалнзацин такой 
базовой человеческой ннтунцин, как «виднмая форма нзображення», то словом «мор- 
фологня» траднцнонно обозначают любые математическне методы аналнза нзобра- 
женнй, основаиные на содержательных яркостно-геометрических моделях. Попыток 
создать «общую теорию формы» было множество. Нанболее зпачнмыми вехамн на 
этом путн нам представляются базовые работы Ж. Серра (математическая морфо- 
логия) [240] н IO. П. Пытьева (морфологический анализ изображений) [38]. Несмотря 
на сходство названнй, долгое время эти две морфологин считалнсь прннцнпнально 
разлнчнымн. По-разному складывалась и нх судьба. Морфология Серра практнческн 
сразу после опубликовання стала шнроко известна н крайне популярна во всем мнре. 
Создано множество вариантов, моднфнкаций н прнложений этой морфологни. Мор- 
фологня Пытьева, к сожаленню, до последнего временн за рубежом была нзвестна 
меньше н развнвалась лншь отечественнымн нсследователями. 

Сегодня мы поннмаем (cM., в частности, [335], [64]-[66], [72], [73]), что оба этнх 
подхода являются частнымн случаямн еще болес общего морфологнческого подхода 
к аналнзу данных. В рамках этого общего морфологнческого подхода может быть 
известным способом создано множество частных морфологий, называемых «морфоло- 
гнческнмн CHCTeMaMH», для решения отдельных частных задач на основе все тех же 
общнх положений. Инымн словами, морфологнческнй «универсальный ключ» может 
теперь иметь любое необходимое колнчество «специальных насадок». Морфология 
продолжает развнваться, н мы ожндаем большого колнчества новых работ и суще- 
ственных продвнженнй в этом направленни в блнжайшие годы. 

Итак. в этой главе мы временно перейдем на романтнческую познцню «ключнн- 
ков», чтобы, забыв до поры о прикладных задачах машннного зрення, просто Ha- 
сладиться краснвой и богатой морфологнческой теорней представлеиня и аналнза 
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нзображеннй. Не скроем, эта область отиоснтся н к иашнм собственным научным 
HHTepecaM, в связи с чем мы представнм ee здесь в несколько большем объеме, чем 
требует минимальный курс обработкн и аналнза изображений. Дополинтельные Ma- 
терналы будут помечены звездочкой. 

Естественио, опнсанне морфологнческого подхода мы начием с двух класснческнх 
теорнй — морфологни Серра н морфологни Пытьева. 


6.1. Математическая морфология (по Ж. Серра) 


Пусть дано евклнлово пространство 5", на множестве объектов (подмножеств) KO- 
торого введены отношення включення (С), объединеиня (U) н пересечення (N). Pac- 
смотрнм некоторое преобразоваине V : E~ — ЕМ (оператор Ф). 

Оператор Ф назызается увеличивающим (increasing), еслн 


XcY-2wW(X)cw(Y,  XYcEM", 


то есть оператор coxpauser отношение припадлежностн. 
Оператор V называется дилатацией (расширением), если 


(ОХ) = UU(X,), V X; c EN 


то есть оператор сохраняет объедииенне. 
Аналогично, оператор, сохраияющнй пересеченне, называется эрозией (сжатием), 
еслн 
V(nX;) = (ШХА), V ХС БМ. 


Оператор называется экстенсивным, если V(X) 2 X, и антиэкстенсивным, если 
V(X) € X. 


Прн рассмотренни последовательного ирнменення операторов вводятся попятня: 

1) усиливающий оператор V(V(X)) 2 V(X); 

2) ослабляющий оператор Ф(%(Х)) C Y(X): 

3) равносильный оператор V(V(X)) = У(Х). 
Морфологнческнмн фнльтрамн называется множество операторов, являющнхся одно- 
временно равноснльнымн н увелнчнвающими [240]. 


6.1.1. Морфологические операции на бинарных изображениях. . Классиче- 
ское опнсание операцнй бниарной математнческой морфологин было дано в термннах 
теорин множеств, опернрующей такимн лонятнями. как объединение множсств, пе- 
ресечение множеств и отношенне включения. При этом бинарные изображения рас- 
сматрнваются нег:осредственно как множества пикселов, поэтому соответствующие 
теоретико-множественные операцин нмеют очевидную наглядную интерпретацию в 
духе «кругов Эйлера» (рис. 6.1.1). 

Определнм трансляцню множества (двумерного бннарного образа) А C E по sek- 
тору смещення 2 є Ё как преобразованне (puc. 6.1.2) 


А, = {9 |аЕ А, q=a + 2). 


Сложенне двумерных точек (пнкселов) в данном случае понимается как сложенне нх 
декартовых коордннат. Пусть теперь даны два бннарных образа А.В C E. Операция 


А9 В = {а-+ Ъ | аЕА, БЕВ} =, y | Ba = U Ab 
c 
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Рис. 6.1.1. Базовые понятия тсории множеств прииенителью к бинарным фигурам 


Рис. 6.1.2. Базовые операции бингрной математической морфологии 
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называется сложением Минковского. Операцня 


АӨВ = {21 CA = П.А 


называется вычитанием Минковского. 

Множество В будем в дальнейшем называть структурирующнм элементом В. Так 
как onepauHH, определяемые этнмн выраженнямн, удовлетворяют требованням со- 
хранения соответственно объедннення н пересечения бннарных образов, то онн на- 
зываются также дилатацией (расширением) и эрозией (сжатием) нзображення Х 
структурнрующнм элементом В (по структурнрующему элементу В) н являются ба- 
зовымн операциямн ММ (рис. 6.1.2). 

Этн операцин являются двойственными по отношению друг к другу в том смысле, 
Что 

ХөВ=(Х© Ф ВУ), 


где ХС— дополненне к X, а BV = (-b|be B). 

Следовательно, все положення нлн теоремы, доказанные относительно одиой нз 
операций, автоматнческн могут быть представлены в двойственной форме относитель- 
но другой операцин. 

Фундаментальный результат, полученный Матероном (теорема Матерона), состоит 
B TOM, что любой увеличивающий оператор Ф,.ннварнантный относительно трансля- 
цин, может быть представлен в виде объедннення эрознй: 


V(X)2- и ХӨВ, 
Bek(V) 


где k(W) — ядро W(X), то есть такое множество структурирующих элементов В, что 
V(B) содержит начало коордннат. 
Этот результат также нмеет двойственную форму: 


Ф(Х)= п ХӨВ, 
Bek(v*) 


где V*(X) = V(X9)*. 

Именно в силу теоремы Матерона эрозия н дилатацин являются базовыми опера- 
циями ММ, то есть любой морфологический фильтр может быть представлен в виде 
объединения эрозий или пересечения дилатаций. 

Введем, наконец, операцин открытия н закрытия, часто используемые в морфо- 
логнн. Операция 

XoB-(XoB)eB (6.1.1) 


называется открытнем X по B н нмеет ясный фнзнческнй смысл: 
ХоВ= U В.. 
BCX 
Этот оператор является антиэкстенснвным и увелнчнвающнм. 
Закрытнем Х по В называется 
ХеВ=(хХөФ В) өв. (6.1.2) 


Этот оператор является экстенснвным н увелнчнвающим. 
Кроме того, оба эти оператора являются равноснльнымн, а, следовательно, откры- 
тие н закрытне — это два простейшнх морфологических фнльтра (puc. 6.1.3). 
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Структурирующий элемент Исходный образ 


Трансляция 


Opening (открытие) Closing сзакрыгие) 


Рис. 6.1.3. Простейшие фильтры в бинарной математической морфологии 


Рис. 6.1.4. Изображение с «дефектами» типа «дырок» и «выстунове 


Рассмотрим геометрический смысл операторов математической морфологии на приме- 
ре обработки искусственного изображения (рис. 6.1.4), который мы уже рассматрива- 
ли ранее в разделе, посвященном бинариой фильтрации. На изображении представ- 
лен прямоугольный объект, имеющий «дефекты формы» типа внутренних «дырок» и 
внешних «выступов». Попробуем морфологическими средствами удалить этн дефекты 
формы объекта. 

Поскольку объект имеет прямоугольную форму, будем использовать структури- 
рующий элемент также прямоугольной формы. Габаритные размеры этого элемента 
должны быть не меньше, чем характерный «поперечный» размер (минимальная хорда) 
дефектов формы, подлежащих удалению. 

Начнем с удаления внешних «выступов» формы, Для этого используется процедура 
открытия. На первом этапе этой процедурь выполняется операция сжатия (эрозин) 
объекта, которая удаляет («съедает») внешние «выступы» формы. Однако внешний 


ue 
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размер объекта при этом уменьшается, а внутренние дефекты, напротив, увеличи- 
заются в размерах, в связи с чем после сжатия необходимо выполнить расшнрение 
{ дилатацию) объекта с тем же структурирующим элементом. В результате выполне- 
HHA всей операцин открытия в целом внешние размеры и форма объекта оказываются 
восстановлены, но виутренние дефекты формы сохраняются (рис. 6.1.5, 6.1.6). 


Рис.6.1.5. Результат сжатия (эрозии) Рис. 6.1.6. Результат открытия объекта объекта 
(удаление виешних «выступов» формы) 


4 


Рис. 6.1.7. Результат расширения объекта (уда- Рис. 6.1.8. Результат закрытия (дилатация) объ- 
ленне внутренних «дырок» формы) екта) 


Рис. 6.1.9. Результат открытия Рис. 6.1.10. Результат закрытия носле открытия 
{полное восстановлеине формы) 


Рассмотрим теперь морфологическую технику удаления виутренних дефектов фор- 
мы («дырок»). Для этого используется процедура закрытия. На первом этаие этой 
процедуры выполияется операция расширения (дилатации) объекта, которая удаля- 
eT («заращивает») внутренние «дыры» и «каналы». Однако внешний размер объекта 
при этом увеличивается, внешние дефекты также увеличиваются в размерах, B CBA- 
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зи с чем после расширения необходимо выполнить сжатие (эрозию) объекта с тем 
же структурирующим элементом. В результате выполнения всей операции закрытия 
в целом размеры и внутренняя целостность объекта оказываются восстановлены, но 
внешние дефекты формы сохраняются (рис. 6.1.7, 6.1.8). 

Для того чтобы устранить и внешние и внутренние дефекты формы в данном при- 
мере, необходимо сначала применить к исходному изображенню (рис. 6.1.4) открытие, 
а затем к результату открытия — закрытие с тем же прямоугольным структурирую- 
щим элементом (рис. 6.1.9, 6.1.10). 

Как видно из примера (рис. 6.1.9, 6.1.10), последовательная комбинация открытия и 
закрытин обеспечила полное восстановление формы исходной геометрической фигуры. 

В заключение даниого раздела рассмотрим особенности морфологической фильтра- 
ции изображений с круглым (дисковым) структурирующнм элементом. На рис. 6,1.11- 
6.1.13 приведен результат открытия прямоугольного объекта круглым структурирую- 
щим элементом. Результат сравненин (вычитания) изображений показываст, что B 
результате открытия форма объекта была специфическим образом нскажена — углы 
прямоугольннка оказались скругленными с радиусом закругления, равным радиусу 
структурирующего элемента. 


Рис. 6.1.11. Исходный Рис. 6.1.12. Результат. Рис.6.1.13. Разность изображений 
объект открытия (фильтрация с 

круглой маской: эффект 

округления углов) 


Данный эффект естествениым образом следует из геометрического смысла опера- 
ции открытия: результат открытия представляет собой объединение всех структуриру- 
ющих элементов, целиком помещающихся внутри исходиого объекта. Легко увидеть, 
что именно в углы прямоугольника дисковый структурирующий элемент никак не мо- 
жет поместиться целиком. В силу этого границу объекта после открытия (закрытия) 
иногда удобно представлять как кривую, полученную путем «качения» структури- 
рующего элемента по внутренней (внешней) грапице исходного объекта (см. также 
рис. 6.1.3). 


6.1.2. Морфологические операции на полутоновых изображениях. Естсствен- 
иый интерес представляет расширение основных операций и результатов морфо- 
логии на случай, когда изображение рассматриваетсн как функция f : F — E, где 
FCEN-!, М — размерность пространства (для случая двумериых изображений 
Е C E?), a f задает интенсивность изображения на F (для случая двумерных изобра- 
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жений F C E?). Для обобщения операций морфологии на этот случай обычно вводят 
следующие понятин [337]. 
Тенью f называется множество U(f) C F x E, определяемое как 


UJ) = (xy) € F x E |y € /(х)}. 


Поверхностью множества А С F x E называется множество T[A]: F — E, определя- 
емое B каждой точке как 
T[A|(x) = шах у. 
ГАТ) = max y 


Связь между этими понятиями очевидна: 


T|U(f)- J. 


Геометрическое представление тени функции и поверхности представлено на рис. 6.1.14. 
Теперь для ыы изображения легко определить понятия основиых мор- 
фологических операций. 
Пусть ЕК С ЕМ! f: FS E, k: К Е. Тогда 
дилатацией f no k называется 


J Ək =T|U(f) 6, U(k)j; 
эрозией f по k называется 
f ok- T[U(/) O. U(k)], 


где Oy и Oy есть определенные выше бинарные операции над U(f),U(k) С E". Другой 
способ вычисления эрозии и дилатации задается выражениями 


f © k(x) = ee 2) 800), 


AK RS 


Ге) = e pur + 2) — k(2)). 


Геометрическое представление дилатации и эрозии функции и поверхности проил- 
люстрировано на рис. 6.1.15, 6.1.16. 


TIU? 
ALL 


Рис. 6.1.14. «Тень» фуикции и пюверх- Рис. 6.1.15. Полутоио- Рис. 6.1.16. Полутоновая 
НОСТЬ «Тени» вая морфологическая морфологическая дилата- 
эрозия UHA 


Для полутоновых изображений существует аналог теоремы Матерона о представ- 
лении морфологических операторов в виде объединения зрозий. Кроме того, резуль- 
таты здесь также могут быть представлены в двойствениой форме, так как 


-(f © k) = (-/) © k, rae k(x) = k(-x), 
fok--((-f)ek) 
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Выражения для операций открытия и закрытия для полутонового случая полностью 
эквивалентны формулам 6.1.1 и 6.1.2: 


fok-(f Ok)Gk, 


fek-(fek)ok 
с учетом всех предыдущих выражений. 


6.1.3. Морфологическое выделение «черт» и объектов. Выделение мелкораз- 
мерных объектов, границ и характерных точек на изображении является одной из 
главных областей применения ММ. В частности, характерными элементами ABIA- 
ются «Т», «Y» и «И/»-соединения (на полутоновых изображениях), острые пики H 
глубокие впадины «рельефа изображения», мысы и «заливы», ступенчатые разрывы 
поверхности и т. д. 

Определим морфологическую границу Xm для миожества X как разность расши- 
рения и сжатия X no сферическому структурирующему элементу В,: 


Xm =(ХФВ,) - (X © B,). (6.1.3) 


С топологической точки зрения, мы получим множество точек, окрестности которых 
пересекаются как с объектом X, так и с фоном (дополнением) Х“. 

Введем категорни точек морфологической границы. 

1) Гладкой поверхностью называется связное множество точек в Xm, которые 
имеют двумерную окрестность в Xm, то есть в каждой из этих точек существует 
непрерывная нормаль к поверхности. 

2) Сингулярной кривой называется кривая С C Xm. представляющая собой связ- 
ное множество точек, имеющих одномерную окрестность на Xm. 

3) Точки границы Xm, не принадлежащие ни гладкой поверхности, ни сингулярной 
кривой, называются сингулярными точками. Примером сингулярных точек могут 
служить «T», «У» n «И/»-узлы. 

В [12] показано, что детектор 6.1.3 обеспечивает хорошее обнаружение узлов и 
ступенчатых разрывов поверхности полутонового изображения. Однако для обнару- 
жения пиков, впадин и острых углов иеобходим другой алгорнтм. 

Элементарные геометрические соображения показывают. что операции расшире- 
ния и сжатия позволяют обнаруживать пики и острые углы. Механизм обнаружения 
прост. Как уже отмечалось ранее, расширение Х дисковым (сферическим) струк- 
турирующим элементом можно рассматривать как объединение всех дисков (сфер). 
вписанных в изображение, а сжатие можно рассматривать как расширение по фону 
ХС. Из рис. 6.1.17 видно, что в точке острого угла разность между расширенным 
и сжатым изображением будет максимальна. Поэтому детектор острых углов можно 
определить как разность между открытием Х и закрытием Х: 


9Хп =ХоВ- Хе В. 


Структурирующий элемент, используемый для выделения черт, не обязан быть 
«сферическим» в точном смысле этого слова, поскольку масштаб изображения по 
яркостной оси никак не связан с его геометрическим масштабом. Однако легко по- 
казать, что операции выделения черт при помощи ММ являются инвариантными к 
поворотам в том И только том случае, когда структурирующий элемент имеет фор- 
му тела вращения вокруг оси, проходящей через точку с координатамн (0,0). По- 
скольку результат применения морфологических операторов зависит только от формы 
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структурирующего элемента, вращение изображения относительно структурирующего 
элемента эквивалентно повороту на такой же угол (в обратном направлении) струк- 
турирующего элемента относительно изображения. Тогда условием инвариантности 
операторов к повороту является эквивалентность структурирующего элемента само- 
му себе при повороте относительно точки (0,0) иа любой угол. Это выполняется 
только в том случае, когда структурирующий элемент имеет форму тела вращения. 


cose Ө - 1) 
Рис. 6.1.17, Приицип морфологического обнаружения острых углов на бинариых изображениях 


Габаритные размеры такого структурирующего элемента (диаметр носителя и Bbl- 
сота) определяют масштаб «черт», выделяемых по описанной выше схеме. 

Математнческая морфология и ее основные операцин создают новую базу для 
применения метода нормализации фона (см. раздел 3.3). В этом случае используются 
два структурирующнх элемента Dj и B2. Элемент Bı конструируется таким образом, 
чтобы «подходить» даже к самым маленьким размерам объекта на нзображении и в 
тоже время отсекать импульсный шум; элемент Bz имеет большие размеры апертуры 
M в состоянии подавить любой, даже самый большой по геометрическим размерам 
отклик объекта. Алгоритм нормализации фона выглядит в этом случае следующим 
образом: 


hX = (X c В!) «В, - ((X o Bı) e B1) о B2) è В. 


Для выбора класса и конкретной реализации алгоритмов предварительной обработ- 
ки, а также исследования их оптимальных параметров необходимо проведение мате- 
матического моделирования с учетом характеристик модельной и реальной фоновой 
обстановки. 

Такнм образом, в задачах инвариантного обнаружения на изображении границ, 
характерных точек и других «черт», а также малоразмерных объектов в сложной 
шумовой обстановке, могут применяться алгоритмы, основанные на использовании 
операторов математической морфологии со структурирующими элементами в форме 
тел вращения. Возможна масштабная настройка таких алгоритмов путем изменения 
размера структурирующих элементов. 


6.1.4. Морфологический спектр. В различных областях, связанных с переда- 
чей и обработкой сигналов, нашли широкое применение спектральные подходы, ос- 
нованные на преобразовании Фурье (см. раздел 3.3). В работах П. Марагоса [338] 
по аналогии с преобразованием Фурье вводится представление изображения в виде 
форморазмерного спектра, вычисляемого при помощи операций морфологии. Инте- 
ресна также непосредственная связь введенных спектров с операцией скелетизации 
изображения, давно и плодотворно используемой как в ММ, так и в других методах 
преобразования и распознавания изображений. 

Рассмотрим с самых общих позиций преобразование Фурье. Оно содержит два 
этапа: 

1) умножение одномерного сигнала S(t) на комплексную синусоиду e^t; 

2) измерение площади под этим модифицированным сигналом S(L)e7*'., 
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Можно считать e759* некоторым «пробным образом», зависящим от частотного па- 
раметра W M выделяющим некоторую информацию (спектральный состав) из сигна- 
ла путем модуляции и последующего измерения преобразованного сигнала. Причем 
собственной спектральной характеристнкой «пробного образа» является импульс на 
соответствующей частоте w. Рассмотрим следующие аналогии: 

1) S(t) ^ X — двумерный образ; 

2) e7*! — B, — двумерный структурирующий элемент размера (масштаба) n; 

3) и — n — размерный (масштабный) параметр; 

4) частотная модуляция — морфологическая фильтрация (открытие/закрытие) с 
использованием структурирующего элемента В, размером n. 

Далее для простоты будем рассматривать непрерывный бинарный случай, хотя в 
[3] все вводимые понятия распространены на дискретный бинарный и непрерывный 
полутоновый случаи. Введем понятие размера множества В (заметим, что это по- 
нятие отличается от понятия размера, приведенного ранее). Пусть на плоскости R? 
дано некоторое выпуклое множество B, размер которого считается единичным. Тогда 
множество rB, имеющее относительно В размер r (r € К), определяется как 


rB = (rb|b € B), 


где умножение двумерной точки b на скаляр г понимается как умножение на этот CKa- 
ляр каждой из ее координат. Очевидно, форма rB повторяет форму В. Рассмотрим 
компактное (связное) бинарное изображение X C R?. Определим образовый свектр 
(pattern spectrum) множества X относительно выпуклого множества B C R? как 
функцию 


P$,(r,B) = xoa, r20, (6.14) 
PS,(-r,B)- UEM r »0, (6.1.5) 


где A(X) — площадь X, и выражения 6.1.4 и 6.1.5 задают спектр соответственно на 
положительной и отрицательной частях оси 7. 


ӘЛА • 00) |1/ д 


МАА PE PEN 


Рис. 6.1.18. Морфологический спектр с круглым струнтурирующим элемеитом и последовательные 
этапы морфологической обработки при его построении 
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Пусть "В есть rD — днск раднуса т. Убеднмся в том, что спектральной харак- 
тернстикой rJ является нмиульс в точке т (как спектром ETW является нмпульс 
в точке W). В самом деле, так как X = rD — компактный диск, то существует 
макснмалыюе р > 0 такое, что X отВ = 0 Ут > р. Прн 0 < т <р нмеем ХотВ = X. 
Следовательно, функция A(X orB) является ступенчатой н ee пронзводная нмеет 
однн 5.нмиульс в точке т = p. Физнческнй смысл спектра легко понять, если учесть, 


что X orB = Y „"В (см. выше), Это означает, что A(X о rB) есть мера содержання 
rBe? 


X относнтельно 7/3. 

Морфологнческнй спектр содержнт наряду с другнмн четыре оснозных внда ни- 
формацнн об образе Х; 

I) неровность (шероховатость) поверхностн относительно D, которой соответствует 
нижняя часть спектра (r — мало); 

2) существованне длннных мысов илн большнх выступающих частей граннцы, CO- 
держащнх 8/3, показывает наличне изолнрованных импульсов при 7 — 5; 

3) В-формность (В-образие) X, то есть макснмальная степень содержания B в X 
может быть нзмерена с помощью PS; (p, B)/A(z); 

4) отрицательная часть т-осн демонстрнрует налнчне больших нмпульсов, если 
существует значнтельная вогнутость (впаднны нлн дыры) B X. 

Рассмотрнм в качестве примера практического прнложення морфологнческого 
спектра разработанную в ИИТ снстему определення подлннностн металлографской 
печати ценных бумаг Ha основе крнтерня наличия металлографскнх «уснков». Pas- 
работанная методнка обработкн цнфровых нзображеннй металлографской печатн c 
целью автоматического выделення н оцеикн качества металлографскнх «усиков» ос- 
новывастся на выделенин характернстик «негладкости» («дымчатостн») контуров Hä- 
блюдаемых графнческнх элементов. Качественный смысл указанной «негладкостн» 
контуров внден нз сравнення фрагментов мнкроскопнческнх нзображеннй подлннной 
н фальшивой акцизных марок. 


Рис. 6.1.19. Графические злемеиты подлинной металлографии (слева) и се имитации (справа) иа 
микроскопических изображеинях сходных фрагмеитов 


Как вндно нз рнсунка, графнческне элементы подлннной металлографни (слева) 
нмеют существенио менее гладкне контура, чем графнческне элементы ее имнтацни 
(справа). Олиако, для того чтобы постронть снстему HX автоматнческого разлнче- 


374 МОРФОЛОГИЧЕСКИЙ АНАЛНЗ ИЗОБРАЖЕНИЙ гл. 6 


HHA, HHTyHTHBHOe понятие «негладкостн контуров» необходнмо было математнческн 
формалнзовать. Соответствующая npouenypa была реалнзована в рамках формалнзма 
математнческой морфологни Серра. 

Рассмотрнм последовательные этапы морфологнческого аналнза нзображеннй иол- 
лннной металлографни (слева) н ee нмнтацин (справа). 


Рис. 6.1.20. Результат бипарнзации микроскопических изображений сходных фрагментов подлииной 
металлографии (слева) и се имитации (справа) 


TN 
=’ d ». 


Рис.6.1.21. Результат морфологического зыделеини края с дисковым структурирующим элементом 
для фрагмеитов подлиииой металлография (слева) и ее имитации (сирава) 


В результате морфологнческого анализа нзображення подделкн выделнлнсь лншь 
самые крупные «наплывы» контура. Между тем, на нзображеннн подлннной метал- 
лографии выделилось значительное колнчество более мелкнх перовностей контура 
различного размера. Именно это свойство «фрактальностн» (т. е. самоподобня неров- 
ностн контура прн сохраненнн случайного характера этнх отклоненнй) н является 
отлнчнтельной чертой контура элементов подлннной металлографнн по сравненню 
с ее имнтацней, нскусственно воспронзводящей неровностн только самого крупного 
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размера, что как раз H может быть математнческн формалнзовано в рамках теорнн 
морфологнческого спектра. 

Рассмотрим результаты построення морфологического спектра для случая под- 
линных н фальшнвых нзображеннй (рнс. 6.1.22 н рис. 6.1.23). Морфологнческнй 
слектр фрагмента подлннной металлографнн достаточно однороден, в то время как на 
морфологнческом спектре фрагмента подделкн наблюдается явное преобладанне круп- 
ных деталей. Это позволяет использовать критернн на базе морфологнческого спектра 
гля создапня программно-аппаратных средстз для определення подлинностн металло- 
графской печатн на основе прнменення критерня налнчия металлографскнх «уснков». 
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Рис. 6.1.23. Морфологический спентр фрагмента поддельной марки с имитацией металлографских 
усиков 


6.1.5. Морфологические скелеты. Непрерывная бинарная морфология. 
Непрерывная бинарная морфология. Следуя опнсанню непрерывной бннарной мор- 
фологнн, данному Л. М. Местецкнм [31], прнмем следующне определення. 

Жордановой кривой называется непрерывный инъектнвный образ окружностн прн 
отображеннн ero s евклндову плоскость Р = R?. Здесь [t — множество действнтель- 
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ных чнсел. Важно, что жорданова кривая не имеет самопересеченнй. Фигурой назы- 
вается связная замкнутая область плоскостн, ограннченная конечным чнслом непере- 
секающнхся жордановых крнвых. Пусть Р — евклндова плоскость с соответствующим 
расстояннем d(p,q), р,9 Є Р. Тогда граница фнгуры А определяется как множество 
точек 

дА = {р:рєР, Yr > 0 Б(р,г) NA ZØ, D(p,r) nA? 4 e), 


где Аб = Р M — дополнение nan фон фнгуры А; D(p,r) — открытый круг раднуса 
т с центром в точке р, определяемый выраженнем 


Р(р,т) = (q4:q€ P, dpa) «rc R}. 


Пустым или вписанным кругом фигуры А называется круг D(p.r) C А. Максималь- 
ным пустым кругом называется пустой круг, который не содержится целиком ни B 
одном другом пустом круге данной фигуры. Скелетом $(А) фигуры А называется 
множество центров всех ее максимальных пустых кругов. Радиальной или дистан- 
ционной функцией точки pc P для фигуры А называется максимальная величина 
радиуса пустого круга с центром в данной точке: 


—00, если pE АС; 
rA(p) = 40, если рє 0A; - 
arg тах, ев (]]D(p,r)]|: D(pr)CA), еслирєА 


Скелетным представлением фигуры является совокупность ее скелета и радиальной 
функцнн, определенной в точках скелета, 


SR(A) = ((p,rA(p)) : p €S(A)). 
Реконструкция фигуры по скелетному представлению B точности совпадает с самой 


фигурой (рис. 6.1.24): 
5$ (А) а В) А. 

Введенные таким образом элементы непрерывной бинарной морфологии полностью 
аналогичны введенным выше элементам общей монотонной бинарной морфологии, 
однако, как показано в [31], скеле- 
ты фигур являются в данном слу- 
чае непрерывными связными планар- 
ными графами. Более того, для фн- 
гур, ограниченных иногоугольниками 
с конечным числом сторон, скелет 
оказывается состоящим нз конечного 
числа отрезков аналитнческнх кривых 
всего двух видов: прямых и парабол. 
Поэтому для построения непрерывных 
скелетов существуют вычислительно эффективные алгоритмы [31], основанные на ис- 
пользовании обобщенных диаграми Вороного. 

Классическая диаграмма Вороного для заданного двумерного точечного множе- 
ства А определяется как кусочно-линейный граф, задающий разбиение плоскости на 
замкнутые непересекающиеся ячейки Вороного (множества точек) Т;, каждая из ко- 
торых содержнт все точки плоскости, для которых ближайшей точкой множества А 


n 


Рис. 6.1.24. Прямоугольиик и ero реконструкцня по 
скелетиому представлению 
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в смысле заданной метрики d является одна и та же точка pi: 
Ti = {р:рЕР, р; €A, Vp; Е A р; X р;, d(Pi P) < d(pj,p))- 


Соответствующая точка p, является для ячейки T; центром притяжения или caü- 
том. 

В обобщенной диаграмме Вороного в качестве сайтов (центров притяжения), мо- 
гут рассматриваться не только отдельные точки, но и фигуры (множества точек), 
например, непрерывные сегменты линий границы. В частности, граница многоуголь- 
ной фигуры представляется в виде (циклически) упорядоченного множества сайтов 
двух тнпов: сайтов-точек и сайтов-сегментов. Сайт-точка и сайт-сегмент, име- 
ющие непустое пересечение, называются соседними сайтами. Сайт-точка считается 
ближайшим сайтом для некоторой точки р, если он является ближайшей точкой 
границы дА к данной точке р. Сайт-сегмент считается ближайшим сайтом для неко- 
торой точки р, если он включает ближайшую точку граннцы дА к данной точке 
р, причем эта ближайшая точка является ортогональной проекцией точки р на пря- 
мую, содержащую данный сайт. Ячейкой Вороного для данного сайта границы яв- 
ляется множество точек плоскости, для которых данный сайт является ближайшим. 


KLX 


Рис. 6.1.25. Построение непрерывиого скелета многоугольной фигуры: а — исходное растровое H306- 
ражение, б — коитур-многоугольник, в — скелет 


№. 


Рис. 6.1.26. Построение непрерывного скелета многоугольной фигуры: а = исходное растровое H306- 
ражение, б — коитур-многоугольник, 8 — скелет 


Сайты называются смежными, если их ячейки Вороного имеют общую невырож- 
денную границу (более одной общей точки). Бисектором пары сайтов называется 
линия, являющаяся общей границей ячеек двух смежных сайтов. Диаграммой Во- 
роного У(А) многоугольной фигуры А называется объединение бисекторов всех ее 
сайтов. 
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Как показано в [31], скелет многоугольной фигуры является подмножеством диа- 
граммы Вороного этой фигуры: $(А) с У(А). При этом скелет включает только би- 
секторы сайтов, не являющихся соседними. 

С другой стороны, в [31] также отмечено, что в непрерывном случае скелет 
фигуры можно определить как множество точек сингулярности (разрыва непре- 
рывности производной) дистанционной функции rA(p). Прк этом легко убедиться. 
что для многоугольной фигуры функция rA(p) непрерывна внутри ячеек диаграм- 
мы Вороного. Более того, поскольку центры притяжения (сайты) имеют вид отрез- 
ков прямых и точек, то двумерная функция гд(р) внутри соответствующих ячеек 
Вороного однозначно описывается уравнениями наклонных плоскостей (для сайтов- 
сегментов) и конусов (расстояние до сайтов-точек). Таким образом, понятно, что 
как только вычислена диаграмма Вороного многоугольной фигуры V(A), то мож- 
но считать, что также нзвестна и кусочно-гладкая дистанционная функция rA(p). 

Непрерывное гранично-скелетное представлеиие изображения. Многоуоль- 
ной областью (ПО) называется ограниченная область, граница которой описывается 
конечным числом простых непересекающихся полигонов. Многоуольная область ап- 
проксимирует растровое бинарное изображение, если при наложении центры всех 
черных точек растра лежат внутри области, а центры всех белых точек растра лежат 
вне области. Представление нзображения в виде совокупности полигонов минималь- 
ного периметра, аппроксимирующих черные области на нзображенни, будем называть 
непрерывным граничным представлением изображения. Прнмер непрерывного гра- 
ничного представления изображення прнведен на рисунке 4. 

Скелетом многоуольной области называется геометрическое место точек на евкли- 
довой плоскости, имеющих не менее двух ближайших точек на границе ПО. Часть 
скелета, лежащая внутри ПО, образует внутренний скелет, а часть, лежащая вне 
ПО — внешний скелет области. 

Совокупность непрерывного граничного представления изображения и непрерыв- 
ного скелета, построенного по этому граничному представлению, будем называть 
непрерывным гранично-скелетным представлением изображения. 

Пример непрерывного гранично-скелетного представлення изображения с отмечен- 
ными областями внутреннего и внешнего скелета показан на рис. 6.1.27. 

Каждой точке скелета соответствует окружность, касающаяся границы области 
как минимум в двух точках н не пересекающая границы области — пустая окруж- 
ность. Пример скелета с отмеченнымн пустыми окружностямн показан на рис. 6.1.28. 


Рис. 6.1.27. Пример непрерывного граинчно-скелетного представления изображения. Виутреиний 
скелет изображения отмечеи синим (см. рис. 6.1.27 Ha цветиой вклейке), виешияй скелет — зеленым. 
миогоуольная граница изображения — красиым 
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Рис. 6.1.28. Скелет изображения с отмечениыми максимальными пустыми кругами вокруг вершин 
скелета (см. также рис. 6.1.28 на цветиой вклейке) 


Обработка и использование скелета. Во многих задачах анализа изображений 
требуется осуществить предобработку скелета, с тем чтобы удалнть из него лншние 
ребра, соответствующие несущественным деталям Изображения. 

Рассмотрнм описанный в [76] пример использования внешнего скелета для сегмен- 
тации символов текста и текстовых строк. Заметим, что при решенни данной задачн 
рассматривается только внешний скелет изображения. Поэтому внутренний скелет 
просто не строится. 

После того как скелет построен, часть ребер в нем можно удалить. Ненужные 
ребра скелета — это ребра, лежащие между различными частями одного объекта 
(символа). Для удалення таких ребер можно использовать несколько разных методов. 

Процедура очистки скелета состоит в следующем: последовательно удаляются все 
конечные ребра скелета. У оставшихся ребер соответствующим образом корректирует- 
ся информация о соседних ребрах. После удаления конечных ребер скелета все новые 
получившнеся конечные вершины будут ннцидентны каждая только одному черному 
объекту. Таким образом, можно повторить процедуру удаления конечных ребер, не 
потеряв при этом ребра, инцидентные двум различным объектам на изображении. 
Процедура повторяется до тех пор, пока в скелете не останется конечных ребер. С 
помощью данной процедуры из скелета будут удалены только ребра, инцидентные 
одному объекту. Заметим также, что в данном случае алгоритм построения скелета 
предполагает, что если все изображение заключено в черную рамку, то все точкн за 
пределами области изображения считаются черными. Это сделано для того, чтобы не 
обрабатывать бесконечных ребер скелета. Ребра скелета, лежащне между рамкой и 
объектами изображения или между разными частями рамки, не несут в себе никакой 
полезной информации об нзображении. Поэтому такие ребра скелета тоже нужно уда- 
лять, Это трнвиальная процедура, так как для каждой точки скелета известен радиус 
инцидентной ей пустой окружности, и можно проверить, касается ли данная пустая 
окружность границы изображения. 

Пример скелета нзображення до н после удаления ненужных ребер показан на 
рне. 6.1.29-6.1.30. 

Далее в работе [76] осуществляется дальнейшая обработка внешнего скелета изоб- 
ражения текстовой страннцы с целью выделення строк текста. 

На рис. 6.1.31-6.1.32 показан пример соответствующей фильтрацин ветвей скелета. 
Зеленым отмечены ветви с неопределенным углом наклона, снннм — «горизонталь- 
ные» ветвн (см. цветную вклейку). 
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Рис.6.1.29. Скелет изображения до предобра- Рис. 6.1.30. Скелет изображения после удале- 
боткн кия ненужных ребер 


Рис. 6.1.31. Скелет изображения до фильтрании Рис. 6.1.32. Скелет изображения после удале- 
вертикальных ветвей HHH вертнкальных ветвей 


*Обобщенные скелетные представления бинарных фигур. Для того чтобы 
можно было говорить о «скелетах» И «скелетных представлениях» фнгур в самых 
общих терминах, не делая различия между разными версиями дискретных [240] и 
непрерывных [31] бинарных морфологий, введем следующие определення. 

Пространство изображения представляет собой множество Р точек плоскости. 
PC X x Y, me X, У — оси прямоугольной декартовой системы координат. Бинарное 
изображение — фуикция 

В(т,у).: X x Y (0,1). 


Бинарная фигура (паттерн) — мпожество точек 
В = {pE P:p= (т, у), В(т,у) = 1}. 
Пусть теперь имеется множество действительных чисел А такое, что 
R= R" U 0U R*+, К є (-00,0), R* є (0,2-o0), R7 #2, Rt 4 в. 


Пусть имеется также полностью упорядоченное отношением строгого включения «C» 
мпожество фигур 
e(R) = {9("), r € R), (П) C P, 


параметризованное скалярами из В B том смысле, что между HHMH имеется взаимно 
однозначное соответствие, прнчем 


У"< 0: (1) = 2, G(0) = (0,0), б(зир(П)) = P. 


Yr, tE R:t«r«O(t) c G(r). 


Упорядоченное множество ®(№) будем далее называть базовой структурирующей 
последовательностью, ее элементы С(г) — базовыми структурирующими элемен- 
тами, а соответствующие значения скаляра r — характеристическим размером или 
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масштабом структурируюшнх элементов базовой последовательности. Точку G(0) = 
= (0,0) будем иазывать центром базового структурирующего элемента, поскольку 
vr»0:G(0) c G(r). 
Сдвиг фигуры B в пространстве Р на вектор р = (х,у) € P будем обозначать Bbi- 
ражением 
B(p) = ((zo +z, у + y) : (ть, y) € B). 


Соответственно, B((0,0)) = B. Оператор сдвига, применяемый к элементам базовой 
последовательности, удобно обозначать при помощи дополнительного параметра: 


С(г)(р) = G(p,r), pe P, r ER. 
Определенное такнм образом множество 
®(Р, Е) = (G(p,r), pe P, re R} 


является полным базисом морфологического разложения [77]. To есть любую фигуру 
А можно представить в виде 


А= СР UV Gp.) : G(p,r) c A). 


Максимальным составляющим элементом для фигуры А назовем такой базисный 
элемент G(p,r), для которого выполняются условия 

1) G(p.r) C A, 

2) ЄР, t € R, G(p,r) C б(94,1 C A. 

Скелетом фигуры будем называть множество центров ее максимальных составля- 
ющих элементов 


$(А) = {p : G(p,r) C A, Jq P, te R, G(p.r) с G(a.t) СА}. 
Радиальной или дистанционной функцией образа А назовем скалярную функцию 


гл(р) = mexír : б(р,г) C A}. 


Это позволяет определить скелетное представление как множество пар 


SR(A) = ((p.r4(p) : p E€ S(A))- 


Такое описание содержнт всю информацию о форме фигуры, необходимую для рекон- 
струкцни: 
^ А 

Алгоритмы утончения дискретного бинарного изображения. Рассмотрим про- 
блемы, связанные с переносом ндей скелетизации на дискретные изображения. Алго- 
ритмы приблнзительной скелетизации бинарных нзображений часто называют алго- 
ритмами утончения, а дискретные скелеты назвают также остовами. 

Как уже было отмечено выше, на непрерывной плоскости скелет можно математи- 
ческн строго определить следующнм образом. Пусть R — множество точек плоскости, 
В — его граница H P — точка множества R. Ближайшим соседом точки P на грани- 
це В является такая точка М, принадлежащая границе В, что на этой границе нет 
никакой другой точки, расстояние от которой до точки было бы меньше расстояния 
РМ. Если точка Р имеет более одного ближайшего соседа, то Р называют остовной 
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точкой множества К. Объединение всех остовных точек называется остовом, или 
серединной осью множества В. Из этого следует, что остовные точки являются цен- 
трами окружностей, полностью покрываемых множеством А, причем не существует 
окружностей с тем же центром и ббльшим радиусом, покрываемых множеством R. 
Можно убеднться в том, что остовы чрезвычайно чувствнтельны к шуму, поскольку 
любое малое возмущение границы не только приводнт к возмущенню одного из ребер, 
но, кроме того, порождает новые ребра. Такнм образом, если P — центр кривизны 
границы В плоского множества В в той точке границы, где ее кривизна HMeeT H30- 
лнрованный максимум, то соответствующий остов содержнт ребро, оканчивающееся 
в точке Р. Еслн исходный объект является тонким (узким), то остов содержит су- 
щественную информацию о его форме. В случае толстых (широких) объектов это не 
так. 

Перенос на дискретную плоскость понятия середннной оси не только не очеви- 
ден, но, быть может, и невозможен из-за осложненнй, возникающих при определенни 
равенства расстояннй между пикселами на днскретной сетке, Следовательно, многое 
здесь зависит от интуицни разработчнка алгоритма. Одна нз возможностей заключа- 
ется в обобщенни определення на дискретную плоскость. Можно определнть какой- 
лнбо дискретный варнант окружности н отыскать «окружностн», полностью покрыва- 
емые рассматриваемым множеством и обладающие тем свойством, что не существует 
ббльших «окружностей» с тем же центром, которые покрывались бы данным множе- 
ством. Поскольку реализация такого метода требует большого объема вычисленнй, 
он не получил широкого распространения. Большая часть лнтературы по утончению 
посвящена алгоритмам, определенным непосредственно на дискретной сетке, 

Прнмем следующее определение. Остовом множества инкселов R называется MHO- 
жество, формнруемое следующнм образом. Сначала определяются пикселы остова н 
пнкселы контура, принадлежащне множеству К. После этого все пнкселы контура, не 
являющиеся остовными, удаляются и полученное в результате этой процедуры MHO- 
жество заменяет множество К. Этот процесс повторяется до тех. пор, пока не будет 
сформнровано мпожество, включающее только остовные инкселы, 

Большннство алгоритмов, опнсанных в лнтературе, относят к категорнн остовиых 
лншь такне пикселы, которые удовлетворяют некоторому критерию связности и CrO 
последовательному прнмененню к некоторому нзображенню, что прнводнт к стягнва- 
нню односвязной (т. е. не нмеющей отверстий) области в один пиксел. Очевндно, это 
не тот результат, к которому мы стремнмся, 

Такое затрудненне можно преодолеть, осматрнвая пнкселы параллельно и обобщая 
определенне 2 посредством добавлення в него условня, согласно которому пнксел, от- 
несенный к кгтегорни остовных в процессе одной нз нтераций, не может быть после 
этого нсключен из рассмотрення. Tak, еслн Q — горнзонтально расположенный Mac- 
CHB пнкселов, то удаление нз его середины одного нз пнкселов приводит к нарушению 
условия связности, Следовательно, удаляться будут лншь Два концевых пнксела мас- 
сива, а остальные будут счнтаться элементами окончательного решення. Остается. 
однако, одна трудность: еслн массив состоит из пар соседних пикселов, то нн однн из 
ннх не является определяющнм C точкн зрення связностн, и поэтому все оин будут 
удалены. 

Последнее препятствне можно преодолеть, нспользуя сочетание параллельной н 
последовательной обработок. Одновременной проверке подвергаются не все пнксе- 
лы контура, а только те, №-соседн которых нмеют нулевую метку, где № прннимает 
последовательно значення 0, 2, 4 H 6. Тогда MaccHB, толщнна которого равна двум NHK- 
селам, будет в первую очередь посредством утончення превращен в масснв толшнной 
в один пнксел, H, таким образом, часть пнкселов этого массива будет сохранена. 
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При нспользовании алгоритмов такого типа разметку остовных пикселов необходимо 
зыполнять специальным образом с тем, чтобы предотвратить их удаленне прн какой- 
либо из очередных итерацнй вследствие нх некритичности с точки зрения связности. 
Этот метод реализован в нижеизложенном алгоритме. Он предназначен для работы с 
двухуровневым изображением, пнкселы которого могут быть снабжены метками 0 или 
1. Пнкселы, составляющие изображения, могут в процессе утончения получать TAK- 
же метки 2 нли 3, так что при изученин конфигураций окрестностей такие значения 
меток следует счнтать ннднкатором наличня пиксела. 

Рассмотрим следующий классическнй алгоритм прореживания. Пусть Г — изоб- 
paxenHe, подаваемое на вход алгоритма, P — множество конфнгураций окрестно- 
стей остовных пикселов, полученных в результате поворота первой конфигурации 
(рнс. 6.1.33) на 90° и трех последовательных поворотов второй на 90°. Истинное зна- 
чение признака оставление нспользуется для обозначения TOTO, что пнкселы, He при- 
надлежащие остову, могут быть оставлены. Признак ост приннмает нстннное зна- 
чение в случаях, когда окрестность пиксела соответствует одной из конфигураций 
окрестностей, входящих в множество Р. Единица в опнсанин конфигурации соответ- 
ствуст пнкселу окрестностн, имеющему ненулевое значепне. 
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Рис. 6.1.33. Коифигурация соседних пикселов при прореживаиин 


Алгоритм имеет следующий вид. 
1. Присвоение признака, оставление истинного значения. 
2. While признак оставление имест исгинное значение do шаги 3-12. 
Begin 
3. Присвоение признаку оставление ложного значения. 
{Никакие изменения не производились. } 
4. For j=0, 2, 4 иб do шаги 5-12. 
Begin 
9. For всех пикселов р изображения I do шаги 6-10. 
Begin 
6. If значение p равно І and if значение его ј-соседа равно 0 then do 
шаги 7-10. 
Begin 
7. Присвоение признаку ост ложного значения. 
8. For всех коифигураций окрестностей, входящих в P do ша! 9. 
9. If конфигурация окрестпости ииксела р соответствует одной из 
конфигураций Р, then присвоение признаку ост истшшого значения 
и выход из цикла. 
End. 

10. If признак ост имеет истинное значение, then присвосиие пикселу р 
зналения 2 {остовный никсел}, else присвоение пикселу р значения 3 
{удаляемый пиксел} и, кроме того, присвоение признаку оставление 
истинного значения. 

Епа. 
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End. 
11. For всех никселов p изображения I do шаг 12. 
12. If значение пиксела р равно 3, then присвоение никселу р значення 0. 
End. 
Конец алгоритма. 


6.1.6. *Регуляризация скелетов. Одинакова ли форма двух фигур, одна из кото- 
рых имеет зашумленную, а другая — гладкую границу (рис. 6.1.34а)? Одинакова ли 
форма фигур двух человечков, ноги и руки которых находятся в разных положениях 
(рис. 6.1.346)? Одинакова ли форма силуэтов двух ящериц, у одной из которых при би- 
наризации глаза оказались выделены белыми кружкамн (рис. 6.1.34в)? Сходство форм 
в этих случаях иитиуитивно очевидно, но как его формализовать? С одной стороны. 
описанный выше непрерывный скелет — это тот инструмент, который специально 
разработан для описания формы подобных бинарных фигур. С другой стороны, ках 
видно из приведенных примеров, для визуально сходных фигур (рис. 6.1.34) скелеты 
оказываются совершенно различны (см. ниже рис. 6.1.35-6.1.37). 
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Рис. 6.1.34. Сходные или различные фигуры? 


Дело з том, что скелетизация, вообще говоря, некорректная задача |74], no- 
скольку не обладает устойчнвостью к малым искажеииям формы коитура фигуры. 
Методом решения некорректных задач является получение некоторого приближенного 
решения, которое было бы корректным [74].`Такой метод называется регуляризацией 
по Тихонову. В данном случае в результате регуляризации исходного неустойчивого 
скелета мы хотели бы пайти некоторый приближенный устойчивый скелет. 

Далее мы будем рассматривать эту задачу, следуя подходу, предложеиному в ра- 
ботс [78], хотя возможны и другие аналогичные подходы. 

Заметнм, что это пе первый случай, когда мы встречаемся с иеобходнмостью pe- 
гуляризации в задачах обработки и анализа изображений. Выше мы уже отмечали. 
что задачи выделения контурных точек, рассматриваемые как задачи вычисления экс- 
тремумов или иулей соответствующих производных на дискретном зашумленном по- 
лутоновом изображении, также являются некорректными и требуют регуляризации. 
Таким образом, регуляризация — один из ключевых приемов, определяющих матема- 
тические методы анализа изображений. He меиьшее значение ргуляризация играст H 
в области современного машиниого обучения. 

Типы нерегулярностей скелета. Будем рассматривать скелет как планарный ске- 
летный граф [240]. Его вершины — цеитры окружностей, касающихся границы в 
трех и более точках, а также терминальные точки скелета, а ребра — серединные оси 
фигуры, линии, состоящие из центров окружиостей, касающихся границы в двух и бо: 
лее точках. Пусть вершины скелета, имеющие одно инцидентное ребро, называются 
терминальными, а остальные — узлами скелета. Ребра, инцидентные терминаль- 
ной вершине, будем называть терминальными, остальные ребра — внутренними. 


31 МАТЕМАТИЧЕСКАЯ МОРФОЛОГИЯ (TIO XK. CEPPA) 385 


Рис. 6.1.35. Рулиментные Рис. 6.1.36. Перехлест виу- Рис. 6.1.37. Рудимеитные ци- 
ребра скелетного графа тренннх вершии клы скелетного графа 


С интуитивной точки зрения нерегулярностями скелета являются такие его эле- 
менты, которые сильно изменяются (возникают, исчезают или видоизменяются) при 
незначительных изменениях фигуры. На основе описанных примеров (рис. 6.1.35- 
6.1.37) в [339] предложена следующая классификация нерегулярностей скелета на 
три типа (табл. 6.1.1). 


Таблица 6.1.1. Виды нерегулярностей скелета 


Обозначение Вид нерегулярности Причины возиикновения 
| | рудимеитиые терминальные ребра неровности границы 
о O перехлест внутрениих вершиз короткке виутрсиние ребра 


рудимеитиые циклы скелетиого графа изменение связиости фигуры 


Введем следующие обозпачения: p: F — Sk — оператор, который по фигуре строит 
непрерывный скелет [31]; u(F) — непрерывный скелет фигуры Е; dj (F, Fi) — рассто- 
яние Хаусдорфа между фигурами Ри F;, определяемое как максимальное евклидово 
расстояние между ближайшими точками этих фигур. 

Первый тип «нерегулярности» ненрерывного скелета — это терминальные шу- 
мовые ребра, вызваииые неровностью границы фигуры (рис. 6.1.34a), не имеющие 
ничего общего с общей структурой фигуры (puc. 6.1.35). 

Терминальным рудиментным ребром скелета Џ(Е) фигуры F с точностью є назы- 
вается терминальное ребро е такое, что найдется =-близкая фигура А, dj (FI) < є, 
в скелете которой u(/^,) отсутствует это терминальное ребро: 


и(Р) 2 ЩА), ШЕ)\Ы() e. 


Второй тип «иерегулярности» кроется во внутренних ребрах скелета при незначитель- 
ных вариациях фигуры: внутренние узлы короткого ребра скелета могут поменяться 
местами — перехлест внутренних узлов скелета (рис. 6.1.36). 

Рудиментным внутренним ребром скелета и(Г) фигуры F с точностью є назы- 
вается внутреннее ребро е такое, что найдется г-близкая фигура Ри, 23 (Е, Д) < є, в 
скелете которой и(Ё\) отсутствует это внутреннее ребро: 


BF) 2 ЩЕ), n(F)u(F) 2 e. 


Наконец, третий тип «нерегулярности» в скелете может возникнуть из-за небольших 
«дырок» фигуры, которые приводят к многосвязности и серьезными изменениям топо- 
логии скелета (рис. 6.1.37) — появлению несущественных циклов (рис. 6.1.34в). Каж- 
дой «дырке» соответствует цикл скелетного графа. Максимальное расстояние между 
двумя точками «дырки» будем считать ее диаметром. 
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Рудиментным циклом скелетного графа (F) фигуры Г с точностью € назовем 
такой цикл, который соответствует дырке, имеющей диаметр меньше фиксированного 
значения є. 

Устранение нерегулярностей. Нерегулярности можно устранять на уровне исход- 
ных фигур или построенных скелетов [340], а также комбинируя эти два способа [79]. 
[341]. Определим некоторые базовые процедуры устранения нерегулярностей скелета. 

Устранение руднментных терминальных ребер. Устранение не] 
гулярности первого типа обычно представляет собой стрижку (удаление) терминаль- 
ных ребер скелета. Например, в работе [340] выполняется стрижка всех терминальных 
ребер скелета. Большинство методов стрижки эвристические, Математически строгий 
метод — построение базового скелета с фиксированной точностью аппроксимации 
[79] (рис. 6.1.38). Обозначим Ф, (К, х) — оператор, который строит базовый скелет c 
точностью ©. 
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Рис, 6.1.38. Результаты устранения рудиментных терминальных ребер 


Устранение перехлестов. В работе [341] описана проблема «перехлеста» 
в рамках задачи поиска аппроксимирующих фигур с изоморфиыми скелетами. Для ее 
решения предложено проводить удаление внутренних ребер скелетиого графа — так 
называемую склейку ребер (рис. 6.1.39). Обозначим через #2(Е, х) оператор, который 
проводит склейку всех ребер скелета таким образом, что фигура F деформируется не 
более, чем на величину œ в метрике Хаусдорфа (то есть склейка с точностью «). 
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Рис. 6.1.39. Устранение виутрениих коротких ребер 


Устранение циклов. Устранение циклов в топологнческом смысле выпол- 
няется довольно просто: нужно разорвать этот цикл и удалнть его часть из скелета. 
Но по метрическим критерням этого недостаточно. Напрнмер, слон с глазом-«дыркой» 
при разрыве цнкла потеряет часть головы CO сторопы разрыва цикла (рис. 6.1.40). С 
другой стороны, появленне мелкнх отверстнй в дискретиой фигуре за счет шумов — 
это обычное дело. Можно выполнять регуляризацию на уровне фигуры. для чего 
использовать диаметры дыр. Необходнмо выставнть порог по диаметру «дырки» и 
удалнть контуры, окружающне мелкне отверстия, что устранит указанную нерегуляр- 
ность (рис, 6.1.41). Обозначим через V4(F,«) оператор, который удаляет все «дыркн» 
фигуры такнм образом, что фигура F деформнруетсн не болес чем на велнчнну х B 
метрике Хаусдорфа (устранение циклов с точностью «). 
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Рис. 6.1.40. Устраисние цихлов как преобразование скелета: а-б — скелет с циклом и фигура; в — 
удаление цикла; г — потеря части головы 
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Рис. 6.1.41. Устранение циклоз как преобразование фигуры: a-6 — скелет с циклом и фигура; в — 
преобразование фигуры; e — схелет без цикла 


Задача класснфнкацин цнклов на значнмость непроста, так как непосредственио 
по скелету определнть, насколько цнкл значнм, не очень просто. Нужно учнтывать 
не только саму протяженность этого цнкла, но и фупкцню шнрнны (размеры кругов). 
Низкая алгорнтмнческая эффектнвность существующнх методов работы с цнкламн 
скелета [31] добавляет трудность проведення практнческнх нсследованнй данного 
вопроса. 

Регуляризация скелета по Тихонову. В фучдаментальном смысле [80] устой- 
чивость скелета эквнвалентна непрерывностн оператора скелетнзацнн, который по 
фигуре стронт ее скелет. Скелетный оператор должен получать на вход одну фнгуру 
и стронть устойчнвый BHA скелета, который прн незначнтельных нзмепеннях фнгуры 
меняется пезпачнтельно. 

Скелет, полученный с помощью оператора 2: F — Sk устойчнв на паре метрн- 
ческнх пространств (Ф, Л) с расстояинямн pa (.-) н pal), еслн для всякого Е >0 
существует такое ó(c) > 0, что для любых двух фнгур Fr, F2 Е Ф нз неравенства 
Pa (Ski, Skz) < 5(=) следует иеравенство po(F, F2) < є, где Sky = J( F1), Skz = 2(£3). 

Оператор построення непрерывного скелета и : F — Sk неустойчнв на паре метрн- 
ческих пространств (Ф, Л), представляющнх собой соответственно гространство H- 
сур н скелетных графоз с расстояннямн: ре(-,-) — расстоянне Хаусдорфа, рл(-.:) — 
топологнческое расстоянне (например, разность чнсла ребер скелетных графов). 

Рассмотрнм прнмер простейшего устойчнвого оператора скелетнзацнн. Назовем 
оператором выделения линейного скелета y": Е — Sk" такой оператор, который 
ло задапной фнгуре F стронт скелетный граф, являющийся подграфом u(F) н 
представляющий собой непрерывную цепочку ребер макснмальной длнны: Sk? = e 
грне. 6.1.428). Оператор выделення лннейного скелета u°: Е — Sk устойчнв на паре 
метрическнх пространств ($, A) c расстояннямн Paf) н рл(-, -). 
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а 6 8 


Рис. 6.1.42. Регуляризацня скелета: а — непрерывный скелет; б — громежуточный скелет; в — 
устойчивое решеиие 


К сожаленню, оператор выделення лннейного скелета u?(F) не несет достаточной 
ннформацнн о форме для сравнення фнгур. хотя н может быть нспользован как некнй 
чнсленный прнзнак фнгуры. Исходный оператор u(F) неустойчнв, что делает его 
для задач сравнення формы также непрнгодным. Значнт, необходнмо найтн какой-то 
промежуточный скелетный оператор (рис. 6.1.426) между неустойчнвым. содержащнм 
в себе «лншнюю» ннформацню џ(Е) (puc. 6.1.42a), н устойчнвым, но содержащнм в 
себе мало ниформацнн u?(F) (puc. 6.1.428). Для этого нспользуется регуляризацня 
но Тнхонову [74]. 

Как известно, с каждой точкой скелета можно связать раднус макснмального 
пустого круга, центром которого данная точка является, то есть задать гранично- 
скелетное представление фигуры. По такому представленню можно однозначно вос- 
станавлнвать исходную фнгуру. Это дает возможность определнть обратный оператор 
скелетнзацнн p^! (Sk) = F. 

Функцнонал 


О(ЅК, о) = pe(F, u^ (Sk))? + «pA (Sk, Sk)? 


называется функционалом Тихонова для задачн u^ (Sk) = Е, где Sk € A — планар- 
ный скелетный граф, Sk? = и°(Е) — результат действия устойчивого однореберного 
скелетного оператора, рл — топологическая мера сходства скелетов, рф — расстоянне 
Хаусдорфа. 

Такнм образом. задача регулярнзацни скелета может быть математически строго 
опнсапа как задача мнннмнзацин указанного тнхоновского функцнонала 


О(5К,а) > min. 


Прн малых значеннях параметра œ решение этой задачн блнзко к нсходной некоррект- 
ной задаче. При болыпих ах решение устойчнвое, но иаходнтся дальше OT нсходиой 
задачн. Приблнженный скелет Sk", найденный как мннимум функцнн Q(Sk,a), будет 
завнсеть от параметра a. 

Общее решеннс этой задачн до CHX пор нензвестно. Однако в [73] была предложе- 
па (по не доказана) достаточно правдоподобная гнпотеза о полноте снстемы функций 
Vi(F. <), (Е, о), Ф3(Е, <), устраняющих нерегулярности опнсанных выше трех TH- 
пов. Она заключается в том, что для любой фигуры F и заданного х найдутся такне 
параметры оц, X2, что решенне ЗК” залачн мнннынзацнн тнхоновского функцнона- 
ла может быть найдено как комбннацня функций, устраняющнх нерегулярностн трех 
ТНПОВ С ТОЧНОСТЯМН Qt, &2, оз соответственно: 


Sk* = Y (F, au) o (Коз) о Va(F, o). 


Для фнкснровакной пары фнгур можно упростнть фундаментальную постановку pe- 
гулярнзацин скелета в термннах «подгонкн скелетов», 
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Для заданных двух фнгур Fi н Fz найтн в некотором смысле нанлучшне скелеты 
фнгур Fi н F2, блнзкне в некоторой метрнке к непрерывным скелетам фнгур Fi н Fz. 
То есть постронть регуляризирущий оператор на основе двух фнкснрованных фнгур 
R(FA, F2) — (Sk, Sk;). Решенне похожей задачн без учета нерегулярностн с цнкламн 
V, прнведено в работе [341], где поставлена н решена задача понска annpokcHMH- 
рующнх фнгур с нзоморфнымн скелетамн. Напрнмер, нанлучшнмн скелетамн можно 
считать изоморфиые скелеты некоторых двух фигур, близких по расстоянию Хаусдор- 
фа к исходным Fi и Ро: Ski Sk. 


6.1.7. *Селективные морфологии. Классическое описание операторов матема- 
тической морфологии (ММ) дано выше. В даниом разделе для морфологических one- 
раторов будут приняты следующие буквенно-функциональные обозначения: 

сжатие (Erosion): E(A, B(r)) или E(A, B), E(A,r), Е(А); 

расширение (Dilation): D(A, В(т)) или D(A, B), D(A,r), D(A); 

открытие (Opening): O(A, B(r)) или O(A, В), О(А, т), O(A); 

закрытие (Closing); C(A, B(r)) или C(A, B), С(А, т), C(A); 
rne А — исходное бинарное изображение, B(r) — бинарный структурирующий элемент 
размера r. Везде, где не указывается структурирующий элемент, подразумевается, что 
выражения верны для любого элемента. 

Перечнслим основные свойства операторов бинарной ММ, которые можно ефор- 
мулировать безотносительно к структурирующим элементам: 


a) (A 2 А1) + Е(А) 2 Е(А1), D(A) 2 D(A1), О(А) 2 O(41), C(A) 2 C(A1); 
b) D(A) 2 C(A) 2 A 2 O(A) 2 E(A); 

с) E(A) = [0(4%)]с, D(A) = [E(49)J6, O(A) = [С(49)[С; 

d) C(A) = (АСЕ; (6.1.6) 
e) O(O(A)) = O(A), C(C(A)) = C(A); 

f) ЕА) =Ø e O(A) =Ø, 


где []< — супериозиция теоретико-множественного дополнения и центральной симмет- 
рни (поворота на 180°). Кроме того, обычио предполагается инвариантность морфо- 
логических операторов относительно сдвига в плоскости изображения: 


O(A") = [0(4)|7, (А7) = [С( А)". 
где [.]" — операция сдвига (переноса) изображения на вектор t = (хе, уе). 

Именно перечисленные свойства операторов ММ делают морфологическую обра- 
ботку нзображений столь привлекательной. При этом помимо простейших морфологи- 
ческих операторов Серра существуют и другие системы операторов, удовлетворяющие 
описанным свойствам, в том числе — построенные на основе других, неморфологиче- 
ских операторов. Формализуем задачу их построения при помощи следующих опре- 
деленнй. 

«Бинарной монотонной морфологией» назовем систему из четырех операторов, для 
которых выполняются условия (6.1.6) и (6.1.7). Операторы E, D называются onepa- 
торамн монотонного сжатия и расширения, а операторы О, С — монотонного 
открытия и закрытия. Оператор пересечения с исходным изображением называет- 
ся «оператором монотонизации по уменьшению». Пусть заданы оператор монотон- 
ного сжатия Е и соответствующий оператор монотонного открытия О. Оператором 
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восстановления после сжатия называется оператор ER, для которого выполняется 
O(A) = ER(E(A)). 

Из свойства (6.1.65) следует, что оператор восстановлення после сжатия явля- 
ется монотонно увеличивающнм (неуменьшающим) оператором. Из того же (6.1.65) 
следует, что не всякий неуменьшающинй оператор может служнть оператором восста- 
новления для данного оператора сжатия. Поскольку А D O(A) 2 E(A), значит ER(E) 
должен быть ограничен и снизу, и сверху. Значит, оператор ER можно получить из 
любого неуменьшающего оператора, применяя операцию монотоннзации относительно 
исходного изображения. 

Таким образом, может быть предложена следующая методика построения частной 
монотонной морфологии: 

1) На основе первого заданного оператора X построить монотонный оператор сжа- 
тия Ех(А) = Х(А) ПА. 

2) На основе второго заданного оператора У построить монотонный оператор от- 
крытия Оху(А) = У(Ех(А)) ПА. 

3) Используя отношения (6.1.6с,4) построить соответствующие операторы расши- 
рения Ох и закрытия Сху = Ey (Dx). 

Построенная таким образом монотонная морфология называется морфологией на 
базе операторов X и У. Пара операторов (X, Y) при этом называется базой морфо- 
логии, а каждый из этих операторов в отдельности — базовым оператором. К coxa- 
лению, данная схема гарантирует лишь монотонность построенных операторов, но не 
гарантирует, что построенные таким образом операторы Ех(А) и Охү(А) сохраняют 
включение, а Оху(А), кроме того, является проектором (a зиачит, и морфологиче- 
ским фильтром в смысле Серра). В каждом конкретном случае эти свойства нужно 
дополнительно доказывать, 

Определим оператор открытия, обладающий следующим харгктеристическим Ce- 
лективным свойством: 


9, если E(Object) = 2; 


SO(Object) = 
Object, если E(Object) # Ø, 


(6.1.8) 


rne Object — любая связная область wa изображении, E(Object) — оператор моно- 
тонного сжатия. Смысл этого выражения заключается B TOM, что оператор SO либо 
целиком удаляет объект, либо сохраняет его неизменным. 

Оператор SO(A) (6.1.8) называется оператором бинарного селективного откры- 
тия (С-открытия). Соответствующий оператор ЕВ называется оператором пре- 
дельного монотонного восстановления изображения (exireme monotonous image 
restoration, EMIR): SO(A) = EMIR(E(A)). 

Оператор селективного открытия сохраняет включение и является алгебраическим 
проектором, значит, и вся селективная морфология в целом является морфологиче- 
ской системой операторов. Оператор EMIR может быть представлен как итеративное 
применение дилатацни 3 x 3 и монотонизации относительно исходного изображения. 
Прииципиальное отличие оператора EMIR(A', А) от оператора D(A', В) в роли onepa- 
тора восстановления после сжатия заключается B TOM, что оператор D «не знает» об 
исходном изображении, а оператор EMIR «не знает» о структурирующем элементе. 

Монотонная морфология, построенная на базе пары операторов (E, EMIR) называ- 
ется селективной морфологией на базе Е. Если в качестве X использовать оператор 
морфологического сжатия Серра E(A, В), получим структурную селективную мор- 
фологию (ССМ). При этом ССМ, в отличие от ММ (рис. 6.1.43), сохраняет форму 
объектов (рнс. 6.1.44). 
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Рис.6.1.43. Пример морфологического открытия бинариого изображения: а — исходное изображе- 
ние; б — результат сжатия; в — результат открытия: г — результат «нормализации фона» оператором 


эткрытия 
а б в 2 
ния 


Рис.6.1.44. Пример работы оператора селективиого открытия: а — исходное изображение; б — 
результат сжатия: в — результат селективного открытня (С-открытия); г — результёт «иормализацнн 
фона» оператором селективного открытия 


Рис. 6.1.45. Пример работы операторов КПСМ: а — исходное изображение: 6 — результат опера- 


тора DeleteEndSegmenis(n): в — результат п-КПСМ-открытия; г — результат «нормалнзацни фона» 
оясратором п-КПСМ-открытия 


Однако селективная морфология может быть построена и на базе принципи- 
ально иных операторов. В качестве примера рассмотрим контурную параметриче- 
скую селективную морфологию. Пусть дано контурное бинарное изображение, Co- 
стоящее из свизных областей толщиной в | пиксел. Тогда кониевой точкой пазы- 
вается пиксел объекта, имеющий ие более одного соседа, а оператором удаления 
концевых точек называется оператор DeleteEndPoints(A). удаляющий все концевые 
точки на А. Оператором удаления концевых отрезков длины п называется опера- 
тор DeleteEndSegments(n), выполняющий п повторений DeleteEndPoin:s( A). Контур- 
ной параметрической селективной морфологией (КПСМ) называется морфология 
на базе (E = DeleteEndSegnients(2). SEMIR). Оператор КПСМ-открытия с параметром 
п улаляет все связные линии, длина которых не превышает 2n. Свойства КПСМ 
иллюстрирует рис. 6.1.45. 

Рассмотрим теперь полутоиовые селективные морфологии. 
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Среди известных способов обобщения бинарных морфологических операторов на 
полутоновый случай простейшим является так называемая формальная подстановка, 
заменяющая бинарные понятия и операции, на полутоновые, им соответствующие. 
Пусть полутоновое изображение рассматривается как двумерная матрица пикселов, 
принимающих значение на [0,..., Imax]. Тогда: 

1) теоретико-множественные отношения D и С заменяются на 2 и<; 

2) операции N и U заменяются на попиксельные MIN и МАХ; 

3) пустому множеству Ø соответствует «минимальное» изображение О = 0; 

4) операция донолиения соответствует вычитанию из «максимального» изображе- 
ния І = Ллах. 

Эти подстановки позволяют обобщить введенные выше определения понятий мо: 
нотонной морфологии на полутоновый случай. В частности, методика построения 
монотоиной морфологии приобретает следующий вид. 

1) На основе первого заданного оператора X построить монотонный оператор по- 
лутонового сжатия Ех (А) = MIN(X(A),A). 

2) На основе второго заданного оператора Y построить монотонный оператор no- 
лутонового открытия Оху(А) = MIN(Y(Ex(A)),A). 

3) Используя отношения (6.1.6c,d), построить соответствующие операторы расши- 

penna Dx и закрытия Сху = Ey (Dy). 
Однако в случае оператора EMIR возникают проблемы, поскольку даниый способ 
обобщения не предлагает полутонового аналога понятия «связности», а следователь- 
HO. И ПОНЯТИЯ «объекта» (связной области). Здесь необходимо использовать иной из- 
вестный подход к обобщению бинариой морфологии, рассматривающий полутоновое 
изображение как упорядоченную по убыванию последовательность бинарных изобра- 
жений, называемых «срезовыми» или «уровневыми». 

Для полутонового изображения А срезом по уровню k называется бинарное изоб- 
ражение ДЕ такое, что 


З 1, если A(z,y) > К, 
A" (s, y) = k ( y) j 
A"(r,y) = 0, в противном случае. 


Полутоновый оператор СХ называется непосредственным срезовым обобщением 
бинарного оператора X, если 


Vk € [0,..., Imax] : F = GX(A) 9 F* = Х(А*). 


Срезовое обобщение может быть построено для любого оператора, сохраняющего 
монотонность. Оператор EMIR сохраияет MOHOTOHHOCTb, следовательно, для него мо- 
жет быть построено непосредственное срезовое обобщение — полутоновый оператор 
предельного монотонного восстановления изображения после сжатия (GEMIR). 
Это справедливо и для полутонового селективного открытия (GS-opening). При- 
меры действия соответствующих операторов полутоиовой селективной морфологии 
показаны на рис. 6.1.46 и рис. 6.1.47. 
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Рис. 6.1.46. Пример работы операторов нолутоновой селективной морфологии. а — исходное изобря- 
жение; б — сжатие; в — селективное открытие; г — «нормализация фона» оператором селективного 
икрытия;: Ò — расширение; e — селективное 3aKpbirHé; ж — •иормализация фона» онератором ce- 
гективного закрытия 


Рис. 6.1.47. Пример работы онераторов полутоновой селективной морфология. с — исходное нзобра- 
женке: б — сжатие; в — селективное открытие; г — «нормализация фона» онератором селективного 
открытня: д — расширение; е — селективное закрытие: ж — «нормализация фона» оператором ce- 
лективного закрытия 


Ряд интересных идей и результатов в области математической морфологии можно 
также найти в работах [184], [256], [342] - [346]. 


6.1.8. *Литература для самостоятельного изучения. Основной первоисточ- 
ник по класической математической морфологии: книга Serra /. Image Analysis and 
Mathematica] Morphology. — Academic Press, 1982. [240] 
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На русском языке существует сегодня уже достаточно много хороших описаний 
ММ Серра. В частностн, вполне качественное описание ММ дано в кииге (Гонсалес, 
Вудс) [19] в главе 9 «Морфологическая обработка изображений». Хорошее алгорит- 
мическое описание бинариой морфологии дано также в разделе 3.5 книги (Шапиро, 
Стокман) [49] «Морфология бннарных изображений». 

Книга (Местецкий) [31] является основным источником по непрерывной морфоло- 
гии бинарных изображений. Эта книга, изданная в прошлом году, содержит полное и 
систематическое изложение нового эффективного раздела морфологического анализа 
изображений, при изучении которого ранее приходилось ссылаться лишь на жур- 
нальные публикации. Чрезвычайно важны также изложенные здесь идеи, связанные 
с регуляризацией скелетов. 

В книге (Форсайт, Понс) [44] в разделе 24.2 «Примитивы, шаблоны и геометриче: 
ский вывод» опнсана история возникновения скелетиых представлений как «лент», а 
также их дальнейшее пространственное обобщение в виде «обобщенных цилиндров». 
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6.2. Морфологические методы анализа сцен (no IO. П.Пытьеву) 


Изображеиня одной н той же сцены могут значнтельно разлнчаться между собой 
прн варнацнн условнй нх регнстрацнн — такнх, как освещенне, оптнческне свой- 
ства поверхностн объектов, свойства среды, влняющей на оптнческие свойства объ- 
екта, н пр. Этот факт усложняет задачу аналнза сцеп по их нзображенням, NO- 
скольку связь между расположеннем объектов н распределеннем яркостн на поле 
зрення неоднозначна, Тем не менее, если всевозможные нзображення сцены могут 
быть опнсаны определенным классом преобразованнй, выполняемых над некоторым 
нзображеннем этой сцены, то характернстикой формы объектов на нзображеннн есте- 
ственно счнтать макснмальный ннварнант данного класса преобразованнй. Посколь- 
ку этот ннвариант, как правнло, не позволяет восстановнть форму объектов, он 
назван формой изображения, а методы аналнза нзображеннй, основанные на этой 
ндее, — морфологическими (Пытьев, 1984 [38]; Пытьев, Чуличков, 2010 [37]). 

Морфологнческне методы аналнза нзображеннй орнентнрованы на решенне задач, 
которые могут быть сгруппнрованы в два большнх класса, Первый класс включает 
задачн выделения неизвестных объектов на изображениях известной сцены, полу- 
ченпых прн неизвестных условнях. Трудность, с которой траднцнонио сталкнваются 
прн решеннн этой задачн, состоит в том, что нзмененне условий регистрацнн прнводнт 
к нзменениям в нзображенни, часто более существенным, чем появленне/нсчезнове- 
ние объектов на местности. Морфологнческне методы позволяют успешно справнться 
с этой задачей. 


И 


яркость В 


W 


C (реконструкция B) 


форма Аи С 


Рис. 6.2.1, Ился м огического выдслеини неизвестного объекта в известной сцене наблюдения 
ор 


Идея морфологнческого решення такой задачн схематически показана на рнс. 6.2.1. 
Пусть нмеются два нзображеиня одной и той же сцены — Ан В, которые разлнча- 
ются тем, что, во-первых, сняты в различных условнях освещенности, в результате 
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чего изменились яркостные (но не геометрическне!} характеристики видимого поля, 
а во-вторых, на изображенни 3 появился небольшой объект, которого не было на 
изображении A. Если мы просто сравним изображения А и В между собой, то nony- 
ченное разностное изображение не позволит нам отделить изменения в составе сцены 
эт изменений яркости. Однако это возможно сделать, еслн сформнровать такое вспо- 
могательное нзображение C, которое нмело бы форму изображения А, но яркость 
элементов этой формы оценивалась бы по изображенню В. Такое изображенне в мор- 
фологии Пытьева называется проекцией В на фориу А. Алгоритм решения задачи 
сравнения изображений по форме с нспользованнем морфологической проекции B 
рассматриваемом простейшем случае имест следующий вид. 

1) Выделить связные области на нзображении A. 

2) Вычислить среднюю яркость по областям А на В. 

3) Сформировать C no форме А с яркостями из В. 

4) Найти разность С и В. 

5) Выделить область с существенной разностью интенсивностей пикселов. 

Эта ндея, несмотря на свою кажущуюся простоту, достаточно эффективно pabo- 
тает и на реальных изображениях. Пусть, например, имеется два изображения мест- 
ности и объектов на ней, полученных зимой н летом (см. рис. 6.2.2 сверху). Пусть 
при предъявленин этих изображений для анализа пеобходимо выделять объект, OT- 
сутствующий на «летнем» изображении, но различимый на «зимнем». На рис. 6.2.2 
знизу слева приведено изображение, яркость которого равна разности яркостей изоб- 
ражений сцены, полученных в разные сезоны года. Вядно, что различие в условиях 


Рис. 6.2.2. Результат выделения отличий в сценах. Вверху — изображения одной и той же местио- 
сти, полученные в разные сезоны года. Внизу слева — разность f - g изображений, приведениых на 
рис. 6.2.1, виизу справа — отличие изображения д летиего пейзажа от зимнего f по форме. Форму 
изображения f определяют конфигурации областей его одинаковой яркости. Отличие по форме Io- 
лучается вычитанием срелией яркости /2у9 изображения д па этих областях нз яркости изображения 
у в каждой точке поля зреиия. Отличие от нуля разиости g – Руд возиикают вследствие изменення 
конфигураций областей поля зрсиия равиой яркостн изображения д по сравиению с конфигурациями 
соответствующих областей изображения f, которые вызваиы изменением сцеиы 
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регистрацни приводят к существенной разнице B яркостях. Ha этом же рисунке BHH3Y 
справа приведена морфологическая разность этих же язображений, позволившая 
выделить объект (яркое пятно в правом нижнем углу), появившийся на сцене н не 
связанный с изменениями условий наблюдения. 

Второй класс задач связан с поиском известных объектов на неизвестной сцене. 
Например. пусть на изображении сцены, полученном в видимом диапазоне электро- 
магнитного излучения (рис. 6.2.3 слева), требуется найти фрагмент (автомобиль), ви- 
димый на изображении ИК-диапазона (рис. 6.2.3 справа). 


Рис. 6.2.3. Изображение сцеиы (слева) н ее фрагмента. полученного видеосистемой с существенно 
меньшим простраиствениым разрешением (справа) 


Рис. 6.2.4. График зависимости близости по форме сравниваемых участков изображений, прелстав- 
леиных на puc. 6.2.3. от взаимного сдвига изображений (в условных единицах). Точка максимума 
соответствует паибольшему сходству изображений по форме и служит оченкой коордииат искомого 
фрагмента 
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Яркости участков поля зрения, соответствующие изображению автомобиля, су- 
шественно различаются, однако их структура («форма») сохраняется, что позволило 
определить координаты искомого фрагмента ИК-изображения на видимом изображе- 
нии. На рис. 6.2.4 приведен график зависимости близости по форме сравниваемых 
участков изображений от взаимного сдвига изображений (в условных единицах). Точ- 
ка макснмума соответствует наибольшему сходству изображений по форме и служит 
оценкой координат искомого фрагмента. 


6.2.1. Форма изображения как инвариант преобразований изображений, от- 
вечающих вариациям условий регистрации. Перейдем к математической форма- 
лизации введенных идей. Поясним основную идею методов морфологического анализа 
изображений на следующем примере. Рассмотрим изображения кубика, сформирован- 
ные при различных условиях наблюдения, рис. 6.2.5. Они несут достаточно подроб- 
ную информацию о геометрической форме объекта сцены (о кубике), так как области 
изображения, все точки которых имеют примерно одинаковые яркостн, отображают 
грани кубика, обладающне одннаковыми геометрическими и оптическими свойства- 
ми. Изменение условий освещения приводит к изменениям яркости точек поля зрения, 
однако области, соответствующие граням кубика и фону, останутся неизменными. 


Рис, 6.2,5. Изображения кубика при различиых условиях регистрации (освещения) 


В этой ситуации математическую модель 


изображения кубика можно определить как А 
кусочно-постоянную функцию Х(:), задан- , 
ную на поле зрения в виде прямоуголь- 
ной области X на плоскости R?, значение 
х) функции в точке x поля зрения X HH- 
терпретируется как яркость изображения B 
точке X € Х, а области постоянной нрко- 
сти Аџ,....А C X соответствуют фрагмен- 


там, изображающим три видимые грани ку- 
бика и фон (рис. 6.2.6). Вариация условий 
освещения приводит к изменению яркости 
исходного изображения точек, но не к про- 
изволыому, а такому. при котором области 
поля зрения постоянной яркости сохраняются либо объединяются, но не могут распа- 
даться на более мелкие, 

Таким образом, математическую модель множества изображений данной сцены, 
полученных при всевозможных условиях (однородиого) освещения, можно определить 


Рис. 6.2.6. Математическая модель изобра- 
жения кубика (слева) и разбиение поля зре- 
ння, определяющее его форму (справа) 
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как множество функций 


4 
У; = {9(х) = У ‘еж (к, xE X; cj € (00,00), ј =1,...,4}. 


jzl 


Здесь xj() — индикаторная функция множества А;, T. e. функция, равная единице. 
когда ее аргумент принадлежит области А;, и нулю в противном случае. Изменение 
условий регистрации приводит к изменению яркостей c,,...,c4. Разбиение поля зрения 
X на области А,,...,Ал одинаковой яркостн является макснмальным ннвариантом 
этого класса преобразований яркости. Это разбиенне определяет все то, что относнтся 
к данной сцене и не зависит от условнй формирования изображений. Его можно 
назвать формой изображения сцены. Изменения в геометрической форме объектов 
сцены (в данном случае кубика и фона), в их размерах, в расположении на поле 
зрення, в ракурсе, или появление новых объектов сцены приведут к тому, что областн 
равной яркостн на нзображении этой нзмененной сцены изменят свон конфигурацин 
по сравнению с областями Аг,...,А« — форма изображення изменится, 

Для того чтобы узнать сцену на предъявленном изображенин E(.), следует oT- 
ветить на вопрос, принадлежит ли изображение E(.) множеству У/. С формальной 
точки зрения для этого следует вычислить расстояние от &(.) до У, т.е. решить 
задачу наилучшего приближения изображения £(-) изображениями из Vy: 


4 


(И, &) = inf (|5 z У`ох;|, cj Є (—оо,оо), j= 1,554]; 
je 


для того чтобы & € Vf, необходимо и достаточно, чтобы p(Vy, £) = 0. Если изображе- 
ния рассматривать как элементы евклидова пространства, то речь идет о расстоянии 
в пространстве R всех изображений от точки (вектора) E до четырехмерного линей- 
ного подпространства Vy C Л, являющегося линейной оболочкой векторов ху,...,Х4. 
Как известно, это расстояние измеряется расстоянием между & и его ортогональной 
проекцией на Vr. Ортогональную проекцию & на У; обозначим Pj E. Изображение Ё(-) 
будет изображением кубика (т.е. выполнено включение & Е Vy) тогда н только тогла. 
когда Гуё = &. Ортогональная проекция Pré, изображения & ua Vy легко вычисляется 
4 
и равна Руд = > itd xs. 
LE 
Итак, разбиение А;,..., Ад поля зрения X na непересекающиеся области А;,.... A 
взаимно однозначно связано с множеством всех изображений кубика V, и c onc- 
ратором ортогонального проецирования на Ух. В морфологических методах анализа 
изображений формой называют множество Vy или оператор проецирования на Vy. 


6.2.2. Сравнение изображений по форме. Следует отметить, что морфоло- 
гические методы применимы не только к кусочно-постоянным изображениям. Дей- 
ствительно, для того чтобы задать форму изображения сцены как множество У/ всех 
возможных его изображений, следует задать какое-либо (достаточно подробное) n306- 
ражение / сцены и определить, как оно преобразуется при изменении условий реги- 
страции. Для этого следует указать класс F преобразований таких, что для любого 
Е ЄЕ результат F(f) преобразования изображения f тоже является изображением 
той же сцены. Тогда форму У; можно определить соотношением 


V; - (g - РОЈ), РЕВ}. 
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Для рассмотренного выше примера формы изображения кубика множество Vy мож- 
но задать, указав в качестве изображения f сцены любое изображение /(х) = 


E! 
= >. CjXj(X), x € X, где все яркости си,...,с4 попарно различны, а в качестве класса 


ero преобразований — преобразования яркости Р(/) = » Е(с;)х; (х). rne FEF, а 
j=l 
Е — класе всех (борелевских) функций, определепных на числовой оси и припима- 
ющих конечные числовые значения. Поскольку в результате таких преобразований 
может случиться так, что, несмотря на различие яркостей ci,...,C4, некоторые из 
яркостей Р(си),...,Е(са) могут совпасть. Тогда области одинаковой яркости изобра- 
4 


жения F(f) = Y^ Е(с;)х;(х) будут объединением областей из разбиения Ау,...,А4, H 
ji 


форму такого изображения естественно считать более простой, чем форму исходного 
изображения {. 

В общем случае будем считать. что 9 по форме не сложнее, чем f, если найдется 
такая функция F EF, что g= F(f). Про такие изображения говорят, что они срав- 
янмы по форме с f. Форма ран J, таким образом, состоит из изображений, 
сравнимых с f по форме. 

Мерой близости формы изображения & к Vy в морфологическом анализе считается 


отиошение #(&) = ic. где П& — ортогональная проекция изображения & на 


множество нзображеннй, равных константе Ha X, т. с. ПЕ — изображение, яркость 
которого в каждой точке поля зрения равна средней (по всему полю зрения X) яркости 
изображення &. Дробь ((£) тем меньше, чем меньше расстояние от È до У; и чем 
больше отличне r£ от константы. 

Заметнм, что Henn КА) можно придать смысл отношения «шум/сигиал» B 
предположении, что изображение £ принадлежит форме Vj. Действительно, числи- 
тель этой дроби характеризует отличие изображения E, or изображений из Vy, которое 
при & Е Vr можно объяснить только наличием погрешности, а знаменатель — величи- 
ну той составляющей изображения &, которая сравнима по форме с изображением f 
и отлична от константы. В задачах узнавания сцены по изображению, искаженному 
шумовой погрешностью, следует указать значение порога отношения «шум/сигнал», 


m 2 
либо по заданному значению отношения £(£) = ИН принять решение, можно ли 


считать полученное значение отношения «шум/сигнал» правдоподобным для данного 
изображения. 


6.2.3. Выделение отличий изображений по форме. Пусть форма изображения 
f задана в виде оператора ортогонального проецирования Ру; на Vy и предъявляется 
некоторое изображение Ë. Требуется указать, в чем состоит отличие по форме H306- 
ражения & от f. Так как изображение PjE является наилучшим приближением č, 
изображениями, сравнимыми по форме c f, то изображение È — Ру, представляет все 
то, что отличает & от f по форме. 

Иллюстрация эффективности такого способа выделения отличий по форме пред- 
ставлена на рис. 6.2.2 На рис. 6.2.7 приведен еще одии пример выделения отличий 
по форме. Предъявлены изображения двух сцен, приведенные на рис. 6.2.7 ввер- 
ху, полученные при различных условиях регистрации: требуется найти различие в 
сценах. Изображение & — f слева внизу показывает отличие в яркостях предъяв- 
ленных изображений и не дает возможности заметить отличие в сценах, морфоло- 
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гическая разность & — Руё, приведенная на рис. 6.2.7 справа внизу, выделяет ob- 
ласть поля зрения, на которой изображен объект, отсутствующий на исходной сцене. 


Рис. 6.2.7. Выделение отличий по форые. Слева вверху — изображсине f, задающее форму H306- 
ражения сцены. Справа вверху — изображение E сцены, отличающейся от предыдущей наличиех 
детали — бусинки, лежащей у ног статуи собачки. Слева внизу — изображение, яркость которо:: 
равна разности яркостей изображений f и E по эгому изображению заметить отличие в сценёл 
невозможно. Справа BHH3y — разность &- Pr& хорошо видна область поля зрения, на которо? 
нзображена бусинка, изменившая форму изображения сцены 


6.2.4. Обнаружение объекта по его изображению и оценка его координат. Hz 
практике большой интерес представляют задачи совмещения и выделения фрагментов 
заданной формы на предъявленном изображении. Пример такой задачи приведен вс 
введении. Как известно, если отличие яркостей сравниваемых по форме фрагментоғ 
не сводится к однородному изменению их яркости и контраста, то в таких задачах 
широко распространенные корреляционные методы работают недостаточно эффектив- 
но. 

Пусть дано изображение f, причем на подмножестве Н поля зрения X имеется 
фрагмент f · х, форма которого рассматривается как эталон формы. Напомним, urc 
функция Хн равна нулю вне множества H и равна единице на множестве H; таким 
образом, яркость изображения f ·. хн равна яркости изображения f на множестве H 
и равна нулю вне II. Рассмотрим группу G преобразований плоскости R? и Сн — 
множество преобразований из G, таких, что YH полностью содержится в области 
X, если y € Син. Следует найти такое преобразование y Є С. чтобы фрагмент изоб: 
ражения & на подмножестве YH был близок по форме к фрагменту изображения ^ 
на подмножестве М. Опишем эту задачу как рассмотренную выше задачу сравнения 
формы двух изображений, заданных на поле зрения X. 

Определим меру близости указанных фэагментов по форме. Назовем формой фра:- 
мента f изображения на подмножестве // множество Vj, изображений, форма котс- 
рых не сложнее, чем форма любого изображения вида 


К.) = Риб) + eO0 - хи()), 


6.2 МОРФОЛОГИЧЕСКИЕ МЕТОДЫ АНАЛИЗА СЦЕН (ПО 10. П. ПЫТЬЕВУ? 403 


где q(.) — произвольное изображение. Иными словами, форма изображення на H 
определяется как множество изображений, яркость которых на Н может быть полу- 
чена преобразованиями изображения fy(-) вида F(fu)(-), где Е пробегает по всему 
множеству F, а на дополнении к H (на фоне) яркость изображения произвольна. 
Проектор на это множество обозначим Ру р. 

Фрагмент заданной формы на предъявленном для анализа изображении & будет 
обнаружен, если Py yë = E, где Ру н — проектор на множество У/„. Для определения 
близости фрагментов по форме обозначим Po, н проектор на множество изображений, 


форма которых не сложнее, чем форма любого из изображений вида f = /(:)хн(:) + 
+ 9()(1 7 xu ()). где ф(.) € 2. (X) — произвольное изображение. Иными словами, 
Рон — проектор на множество изображеннй, яркость которых равна константе на 
подмножестве H и пронзвольна вне ero. Тогда блнзость фрагмента предъявленного 
нзображення & к форме фрагмента нзображення f на подмножестве Н определнм 
значеннем дроби 


|5. — Pr aël? 


——— I 
Й№,н&- Ру.н&] 

Если на изображенин Ё фрагмент заданной формы расположен на подмножестве 
yH, то сравннвать по форме на подмножестве Н следует фрагменты нзображеннй 


ЉС) и ЕС), где 


tu(E) = 


f(vy-!x) ecan y-!xe X, 


fi 0, еслн ү-!хє X. 


Блнзость фрагмента нзображения & на множестве yH к форме фрагмента нзображе- 
ння f на множестве Н определим значением дробн 


[Е РНР 
[^н – Pr, ull 


Пусть G — группа сдвнгов плоскостн R? такая, что прн заданнн декартовых пря- 
моугольных коордннат любой вектор (a,b) Е R? преобразованне у Е С превращает в 
вектор Y (s y) ((a,5)) = (а + zb + y) Е R?. На рне. 6.2.4 прнведены значения 1/Ён.у(&), 
обратные близостн фрагментов по форме, в 3aBHCHMOCTH от координат вектора сдвнга. 
Макснмальное значенне величнны 1/tj,,(£) определяет координаты вектора сдвига 
плоскостн, совмещающие близкне по форме фрагменты нзображеннй E н f. 


tuy (E) = 


6.2.5. *Морфология на базе кусочно-линейной интерполяции. В [81] была 
предложена морфологня, сходная по духу с морфологней Пытьева, но основанная на 
несколько нном способе опнсання формы. 

Рассмотрим задачу построення кусочно-линейной ннтерполяцни одномерной функ- 
цнн Пусть на отрезке [a,b] заданы п + 1 опорных (узловых) точек: а < zo < 21 <... < 
ги € b. Пусть, кроме того, нзвестны значения некоторой функции f(x) в этнх точ- 
ках. Как нзвестно, значенне кусочно-лннейной ннтерполяционной функцнн на каждом 
отрезке ннтерполяцни [=;,2; +1] нмеет BHA 


Қа) = f(zi)(z — zi) + f(ziai)(z аы). (6.2.1) 
На рис. 6.2.8 показаны результаты ннтерполяцнн функинн f(z) ка отрезке 
[zi zi4:]. Прн этом отдельно показаны вклады значеннй f(ri) н f(ri,,), нмеющне 
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BHA соответственно лннейно убывающей от f(z,) до нуля и лннейно возрастающей от 
нуля до f(zi41) функций. 

Сгрупинровав вместе вклады в общую функцию значеннй /(х:), это выраженне 
2n перепнсать B форме, аналогнчной выраженню Пытьева для «формы» функцнн 
(6.2.1): 


Қ) = У} Иан) и(аь а), 


ees, T€ Ена; 
(тт) =) E, те festi; (6.2.2: 
0, T É [£i Ti]. 


На рнс. 6.2.9 показан BHA опорных функцнй L;(ri,z), напоминающнх шалаш нлн 
двускатную крышу. 


5 Xn х 


Рис. 6.2,8. Кусочно-линейная интериолиция Рис. 6.2.9. Опорная фуикиия кусочно-линейной 
функцни на отрезке і интерполяции 


Легко заметить, что предложенная Ю. П. Пытьевым схема морфологнческого срав- 
нення функцнй «по форме» на основе морфологнческого коэффнцнента корреляцнн в 
формальном отношенин полностью прнменима н к проектнвной морфологин на базе 
кусочно-лннейной интерполяцнн. Рассмотрим сперва одномерный случай. Пусть на от- 
резке [a,b] определена кусочио-лннейная (ломаная) функцня f(x). Прнмем множество 
локальных экстремумов данной функцни в качестве опорного множества кусочно- 
линейной ннтерполяцин и рассмотрнм ннтерполяцню некоторой другой функции g(r! 
по точкам из этого множества, Заметим, что построение ннтерголяцин по фикснро- 
ванному набору точек всегда может быть рассмотрено как оператор проецнрования. 
Это позволяет определить коэффнциент морфологической корреляцнн, подобный мор- 
фологическому коэффициенту корреляцин Пытьева, следующим образом: 


K (g, = РАЯ Я 
581 mex(|[Pr(s)l], [lol 


Ра) = Усе и(ть а), (6.2.3) 


(zi) = lextr (/(2)), 
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где L;(ri,z) — опорные функцни тнпа (6.2.2); lextr (f(z)) — множество локальных 
экстремумов функцнн f(x). Далее мы можем назвать модельное множество 


М = У ‘а 1и(т, 2): ме R . 


«формой» функцни f(x). Это позволяет осуществлять операцию «сравнення функций 
по форме»: чем больше значенне коэффицнента морфологической корреляции (6.2.3), 
тем больше «сходство по форме» функцин g(z) с f(x). 
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Рис. 6.2.10. Проекция функции па «форму», Рис. 6.2.11. Проскция функции на «форму». 
определяемую иножеством собствеиных экс- определяемую экстремумамн другой функцин 
тремумов 


На рис. 6.2.10 показан пример проекции гладкой одномерной функции на кусочию- 
линейную «форму», определяемую множеством ее собственных экстремумов. Как вид- 
HO. кусочно-линейная интерполяционная функция I(z) = /(f(x)) не сильно отличает- 
ся от исходной гладкой функции f(x), следовательно, морфологический коэффициент 
корреляции K(f, /(7)) должеи быть близок к максимальному значению. Ha рис. 6.2.11 
показан пример проекции другой гладкой функции g(x) на кусочно-липейную «фор- 
My», определяемую множеством локальных экстремумов отличной OT нее функции 
f(z) (рис. 6.2.10). Из-за несовпадения положения локальных экстремумов проекция 
Ру(9) оказывается существенно отличной от g(x). «Пики» и «впадины» исходной 
функции оказываются в проекции в значительной степени «срезаны», это уменьшает 
ее размах, и как следствие коэффициент корреляции K(g,I(f)) должен принимать 
существенно меньшие значения. 

Рассмотрим теперь задачу кусочно-линейной аппроксимации двумерной функции. 
Эта задача несколько сложнее, поскольку произвольный набор точек двумерной плос- 
кости, в отличие от любого набора опорных точек на прямой, не является естествен- 
ным образом упорядоченным, вследствие чего выбор соседних точек для формирова- 
ния опорной функции вида (6.2.2) оказывается не столь тривиальным. 

Часто применяется, например, решение этой задачи, основанное на построении 
триангуляции Делоне. Пусть на ирямоугольной области двумерной числовой плос- 
кости [a,b] x [c,d] заданы п опорных (узловых) точек X = {1;,у;} :а< z; S b, < у < 
d, i =1,....п, Пусть, кроме того, известны значения некоторой функции f(z,y) в этих 
точках. Будем далее считать, что триангуляция Делоне для данного опорного множе- 
ства точек Х всегда может быть построена, и соответствующий граф триангуляции 
Делоне обозначается D(X). На рис. 6.2.12 показан пример такой триангуляции. 
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Выражение для кусочно-лииейной интерполяции с использованием триангуляции 
имеет BHA, аналогичный выражению (6.2.4): 


In) = Лавин) Lini yim у), (6.2.4) 


где Li(zi,yi,z,y) — двумерная опорная функция, похожая на шатер или многоскатную 
крышу (рис. 6.2.13). 


А 


Рис. 6.2.12. Пример трнангуляцни Рис. 6.2.13. Опорная функция двумерной кусочио- 
Делоне линейной интерполяции 


Для двумерного случая определения морфологического коэффициеита корреляции 
и «формы» функции могут быть даны сходным образом: 


К А = ‘ 
(o. f) иах(|| Ру (9). [91 


Руд) = Dalry (кь), 
{ (ои) = 1ехіг2 (7 (2, y)), 


М = абала jai Є н). 
і 


где L(zi, у, г.у) — опорные функции; lextr2(f(2z,y)) — множество локальных экстре- 
мумов кусочно-линейной функции f(x,y); M — «форма» кусочно-линейной функции 
f(x,y). Таким образом, мы получили некоторое альтернативное определение «формы» 
двумерной функцин, основанное не на кусочно-постоянной аппроксимации Пытьева, 
а на кусочно-линейной интерполяции. 

На рис. 6.2.14-6.2.16 представлены примеры вычисления интерполяционной проек- 
ции различных авиациоиных изображений зданнй па кусочно-линейную форму. Как 
видно из представленных примеров, даже в случае использования неболыного чис- 
ла опорных точек для описания формы эталона, проекции изображений, сходных по 
форме с эталоном, претериевают существенно меньшие отиосительные изменения по 
сравнению с проекциями изображений, имеющих значительные отличия по форме от 
эталона, 
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Рис. 6.2.14. Вычисление интерполяционной проекции изображения на собственную кусочно- 
линейную форму: а — расположение знвчимых экстремумов; б — соответствующая триангулиция; 
$ — кусочно‘линейная интерполяционная проекция 


Рис. 6.2.15. Примеры вычисления интерполяциониой проекции на кусочно-линейную форму: а — 
форма, опрелелясмвя триангуляцией по значимым экстремумам эталона; б — эталонное изображение 
убъекта; в — проекция эталона на форму; г — тестовое изображение объекта; д — проекция тестового 
изображения на форму; е — изображение другого объекта; ж — проекция другого объекта на форму 
эталона 


Рис, 6.2.16, Примеры пычислечия интериоляциокной проскцни па кусочно-липейную форму: а – 
форма, определяемая -риангуляцией по значимым экстремумам эталона; б — эталомное изображение 
объекта; в — проекция эталона на форму: г — тестовое изображение объекта: д — проекция тестового 
изображения ив форму; e — изображение другого объекта: ж — проекция другого объекта на форму 
эталона 
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6.2.6. *Литература для самостоятельного изучения. Книга (Пытьев, Чулич- 
ков) [38] — основной источник по данному разделу. Она содержит систематическое 
изложение морфологического анализа изображений no Ю. П. Пытьеву, npu изучении 
которого ранее приходилось ссылаться лишь на журнальные публякацни и публика- 
ции в сборниках. 


Список источников к разделу 6.2. 

1) Пытьев IO. П. Задачи морфологического аналнза изображений / Математические методы 
неследования природных ресурсов Земли нз Космоса, — M.: Наука, 1984, C. 41-83. [37] 

2) Пытьев ІО, П., Чуличков A, И. Методы морфологического аналнза нзображеннй, — М.: 
Физматлит, 2010. [38] 

3) Визильтер Ю, В, Проектнвные морфологни па базе иптсрполяцни // Вестиик компьютер- 
ных H ниформацнонных техиологнӣ. 2008. № 4. С. 11-18. [81] 


6.3. Морфологические системы и анализ изображений 


В основе обработкн и анализа изображений как прикладной технико-математической 
дисциплины лежат задачн математической формализации яркостно-геометрических 
моделей изображений (объектов) и построения процедур (методов) анализа наблю- 
даемых изображений на основе этих формализованных моделей. Примером такого 
рода моделей наиболее общего характера является хорошо известный класс разло- 
жений (ряды Фурье, обобщенные ряды Фурье и другие). Они позволяют выявлять 
внутреннюю структуру математических объектов, исследовать критические свойства. 
регулярным образом порождать различные наборы характернстик, В областн anann- 
за изображений стремленне к созданию достаточно уинверсальных н в то же время 
предметно-адекватных моделей и процедур для различных прнкладных задач при: 
всло к возникновению целого ряда на первый взгляд совершенно различных мето- 
дов современного компьютерного зрения таких, как корреляционное обнаружение н 
согласованная фильтрация, частотные 4 пространственио-частотные методы на ба- 
зе двумерного преобразования Фурье и вейвлет-апализа, морфологический nonxo3 
IO. П. Пытьева, математическая морфология Серра, метод •нормалнзации фона», npe- 
образование Хафа и обобщенное преобразование Хафа, структурно-лингвнстический 
подход н ряд другнх. Значительный вклад в разработку методов н алгоритмов обра- 
ботки изображений и машннного зрения применнтельно к обсуждаемым задачам виес- 
ли работы IO. П. Пытьева, Ю.И. Журавлева. Л. П. Ярославского, Ж. Серра, Д. Mappa. 
Е. Дэвиса, Д. Балларда, А. Демпстера, Г. Шафера, У. Гренанлера, М. Павель, Дж. Tv. 
К. Фу и миогих других. За последние десятилетия создано множество успешных си- 
стем машинного зрення, в которых B тех или ниых сочетаниях используются упомяиу- 
тые подходы и парадигмы. Однако отсутствие единого математического формализма 
для описания яркостно-геометрической структуры изображений н соответствующей 
единой методики разработки алгорнтмов апализа изображений по-прежнему является 
серьезной проблемой, затрудняющей и замедляющей разработку новых прнложений 
и практнческих систем машинного зрения. Рассматрнваемые в данной главе морфо- 
логический подход к анализу изображений, теория проективных морфологических 
разложений, a также более общий математический аппарат критериальной проек- 
тивной морфологии позволяют вскрыть единую математнческую природу большнн- 
ства перечисленных подходов и, таким образом, обеспечить максимально возможную 
гибкость и вариативность предметно-орнентированного структурного анализа изобра- 
жений. 
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6.3.1. Обобщенный морфологический подход к анализу данных. В ряде работ 
[64] -[66], [72], [73] был предложен обобщенный унифицированный подход к аналнзу 
изображений на основе моделей. В силу значительного сходства основных идей это- 
го подхода с базовыми идеями морфологическнх систем Ж. Серра и Ю. П. Пытьева 
данный подход был назван морфологическим подходом к анализу данных. 

Морфологический подход отличается от других схем анализа данных тем, что в 
качестве обязательного этапа предполагает обоснованное (т.е. в некотором смысле 
оптимальное) построение модельного описания гипотетического (скрытого) прооб- 
раза наблюдаемых данных. Иными словами, обязательным этапом решения любого 
тина задач здесь является модельная сегментация данных, допускающая их после- 
дующую полную или частнчную реконструкцию. 

Формализуем этот подход. Пусть имеются множество возможных наблюдений 9 
и иножество модельных описаний некоторого типа Л. Базовой (формальной) опе- 
рацией морфологической сегментации дачных называется однозначное отображение 


Е;9 > А. 


Базовой (формальной) сопряженной операцией реконструкции данных называется 
однозначиое отображенне вида 


$:A— 8, VE € 8 е(5(е(Е))) = (Е). 


Базовым (формальным) морфологическим фильтром называется последовательная 
комбннация сопряженных операцнй базовой сегментации н базовой реконструкцин 


данных 
фев(Е) = 8((E)):8 >A — 8. 


Базовый морфологический фнльтр по построению является алгебраическим проек- 
тором (idempotent operator): 


Peal E) = Pes (Pes (E)). 


Набор элементов A = {9, Л, є,5} определяет частную формальную или \-морфологию 
(prc. 6.3.1). Далее необходимо перейти к построению критериальных морфологиче- 
скнх операторов, определяемых некоторыми априорными крнтериями, основаннымн 
на семаптике анализируемой предметной области, оптимальному значению которых 
должны соответствовать результаты обработки (сегментацин и реконструкции) на- 
блюдаемых данных. 


о Ф a 
1 `` 
i 
о B. 
Mc9 25 A 
» — 
MoN һм ж 
зно игр 
множество образов множество описаний 


Рис. 6.3.1. Схема ностроеиня формальной морфологни 
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Пусть теперь заданы: М(Л): A — [0,1] — крнтерий качества морфологнческого 
описания данных; K(E,E') : 8 x 8 — [0,1] — критерий соответствия наблюдений и их 
реконструкцни па основе морфологического описания. Тогда критериальной морфо- 
логической сегментацией eo и критериальным морфологическим фильтром qa на 
базе (#,5) называются операторы 


(Е) =À, qQa(E) = 5(Л) : Ф(Е,А) = K(E,6()) - М(А) -+ max(A: A € A), 


где E €8,0(E,À) — критерий оптимального морфологического описания данных. 
Таким образом, набор элементов J(9R) = {9,Л, є,5, К, M) определяет частную Kpu- 
териальную или 3-морфологию, которая также может быть охарактеризована более 
коротким зквивалентным набором параметров 2'(91) = {9, А, гф,5}. Важным частным 
случаем описанных критериальных морфологий являются проективные критериаль- 
ные морфологии, удовлетворяющне условню 


Фо(Е) = фФ(фе(Е)). 


Поскольку в таком случае крнтериальная Э-морфология является также н формальной 
\-морфологией, то на базе критериальной проектнвной морфологии первого порядка 
$a! = J'(9R). в свою очередь, может быть вновь построена крнтериальная морфология 
второго порядка 3" = ?'(%!') ит. д. Поэтому исследование проективных свойств кри- 
териальных морфологий представляет существенный интерес, а класс проективных 
критериальных морфологий 9R'(9R, K, M) может быть назван классом критериаль- 
ных морфологий в узком смысле. 

Можно заметить, что рассмотренные в предыдущих разделах классические мор- 
фологин Пытьева и Серра являются одновременно и формальными, и критериальнымн 
(рис. 6.3.2). Проекция Пытьева на класс изображений заданной формы есть ближай- 
ший в смысле евклидова расстояния образ в данном классе (на рис. 6.3.2) эта идея 
иллюстрируется на примере образов-векторов). Проективный оператор типа «откры- 
тие» Серра определяет изображение максимальной площади, принадлежащее классу 
представимых путем объединения заданных структурированных элементов и прн этом 
целиком вписанное в проецируемое изображение. 


ПА -C |l 
Морфология Пытьева: 
Pr(A,M(B)) = argmincemg) || A - C II 


МӘ Морфология Серра: 

АВ = агетіпс мв ПА- СІ: CSA} 
или 

АоВ = argmaXcwq {IC |: ССА) 


ж \ 
IBN 


Рис. 6.3.2. Критеркальная интерпретация морфологий Пытьсва и Серра 


! AoB C tt 


Рассмотрнм теперь такие основные классы задач анализа данных (изображеннй). 
как задачн фильтрации (преобразования), сжатия/декомпрессии (сегментации/ре- 
конструкции) данных, классификации (тестировання гипотез, распознавания обра: 
зов), обнаружения объектов (локалнзацин гипотез в пределах одного наблюдения). 
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Легко заметить, что задачи фильтрации и сегментации решаются B описанной 
зыше схеме по определению. 

Для решения задачн морфологического распознавания образов необходимо до- 
бавить к морфологической схеме анализа данных: множество гипотез ©; однознач- 
ный оператор интерпретации морфологических описаний на множестве гипотез 
с: А — O; модель предметной области M(H): Ө — [0,1]; модель соответствия 
описаний объектов гипотезам из предметной области М (à, Н): А х Ө -+ [0,1]. To- 
гда модель описания данных принимает внд 


Ме(^) = max(M(, Н): M(H): H € 8), 


4 критериальный морфологический классификатор формируется как модульная 
процедура анализа данных вида 


ca (E) = в(ех(Е)): 9 — Л ~ Ө. 


Для решения задачи морфологического обнаружения (локализации) объектов Mop- 
фологическую схему необходимо также дополнить операцией вырезки или выборки 
части наблюдения E, согласованной с морфологическим описанием À, вида 


n(E,3):8 x A— 8. 


С учетом этой операцнн задача обнаружения и локализации объекта оешается при 
помощн морфологического оператора 


€ (E) 24: 64(E,A,H) = К(п(Е,^),5(^)) . М(А, Н): M(H) ^ max(A € A,H € ©). 

Данный подход позволяет также определить селективный морфологический фильтр 
Q«(E) = n(E, tno (E)):9 x A— $, 

no определению являющнйся алгебраическнм проектором. 


6.3.2. Критерии, используемые в морфологическом анализе изображений. 
Рассматрнваемой нами предметной областью анализа данных является анализ изоб- 
ражений. Далее будем счнтать, что с самой общей точки зрення, вне завненмостн 
от конкретного способа представления данных, изображения HNA образы являют- 
ся элементами пространства изображений nau множества всех образов N. Соот- 
ветственно, нзмерення Е(А) є 0 будут теперь счнтаться некоторымн статнстнкамн, 
вычнсляемымн для образа АЕ © прн помощн процедуры измерения илн наблюдения 


6:9 ~ ә. 


Такнм образом, операторы критериальной морфологической сегментации Еф н Kpu- 
териальной морфологической фильтрации фф нзображеннй прнннмают следующнй 
BHA: 


£o (A) = А,фо(А) = L = b(A) : Ф(А,А) = К(е(А),^) - М(А) > max(A: € A), 


rae A € Q, e(A) € 8, (4,3) : Q x A — [0,1] — критерий морфологического описания 
изображения A; М(А): А — [0,1] — критерий качества морфологического onuca- 
ния изображения; К(е(А),А): 9 x Л -» [0,1] — критерий достоверности того, что 
измерения е(А) могут возникнуть при наблюдении прообраза, соответствующего 
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модельному описанию À; [ЕЯ — реконструируемый идеальный (модельный) npo- 
образ наблюдаемого образа; є : 9 — Л — базовый оператор морфологической cee- 
ментации изображения; 6: A +» Q, Y AER: ғ(5(Е(А))) = (А) — базовый оператор 
морфологической реконструкции изображения; фез (А) = 5(Е(А)): A—É- Л + A — 
базовый (формальный) морфологический фильтр (проектор). 

В простейшем случае в качестве нзмерення может рассматрнваться сам образ, то 
есть 9 = 9, e(A) = A. 

Форма и семантический смысл морфологических критериев. Выше была вве: 
дена мультипликативная форма запнсн критернев, задаваемых нормированными на 
ннтервале [0,1] в общем случае нечеткими функциями принадлежности объектов 
нлн пар объектов некоторым множествам. Однако такая форма описания, будучн до- 
статочно общей, не является едннственно возможной. Более того, разлнчные возмож- 
ные формы записн траднцнонно связаны C разлнчной семантической ннтерпретацией. 

Вероятностные моделн, очевндно, являются частным случаем нечетких MONE: 
лей. Вероятностная мера должна дополннтельно удовлетворять условню нормнровки 


(полной вероятностн) 
2 u(z) =1, 


LIP 


где X — некоторая полная группа элементов (событий). Допустнм, что элементы 
когнитнвной моделн описываются вероятностными мерами. Тогда HX можно соответ: 
ственио обозначнть: O(A, L) = P(A,L) — вероятность совместного наблюдення А и 
I; К(А, L) = Р(А/Т,) — условная вероятность наблюдення А прн условии L; M(L) = 
= P(L) — anpnopuas вероятность формнровання прообраза Г. То есть в этом случае 
когнитивная модель 

Ф(А, 1.) = K(A,L): M(L) 


представляет собой формулу полной вероятности событня «А н L наблюдаются 
одновременно» 
P(A, L) = Р(А/І) - P(L), 


а задача макснмально достоверной реконструкцни HAH морфологнческой фнльтрадни 
может быть интерпретнрована как задача понска прообраза L по методу максимума 
апостериоркой вероятности | 


ф(А) = L: Р(А, Г.) -> max(L Е 9). 


Рассмотрнм теперь четкие нлн логические модели, в которых меры принадлежности 
ирнннмают значення на множестве {0,1} С [0,1]. Четкая модель прообраза иредпо- 
лагает, что идеальный прообраз определенно принадлежит пекоторому модельноми 
множеству изображений М: 


M(L) 5 {0,1} : (M(L) 31e LEM, M(L)=0 8 L¢ M). 


Прн этом даже еслн критернй (A, L) остается печетким, Ho удовлетворяет условию 
максимума сходства при эквивалентности 


УА D: K(A,A) > K(A,B), 


оператор морфологнческой фнльтрацнн всегда может рассматриваться как оператор 
морфологической проекции на модель 


Ф(А, М): K(A,L) : M(L) > niax(L € Я) & K(A,D) > max(L € M). 
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Таким образом, еслн дано n пепересекающихся модельных множеств, можно TO- 
ворнть о том, что оператор морфологической фнльтрацнн ip разбнвает N на n классов 
эквивалентности. Этот факт часто нспользуется в алгебранческнх теорнях распо- 
знавання образов [24]. 

Наконец, в случае логических критериев логнческнмн предикатамн опнсываются 
и критернй соответствия K(A,L), н модель прообраза M(L). Для такнх крнтериев 
эффективнымн оказываются процедуры логнческого вывода, реалнзованные в языках 
rana ПРОЛОГ и другнх снстемах логнческого программирования. 

Помимо мультиплнкативной, в лнтературе часто рассматривается также аддитив- 
ная форма записи критериев вида 


КА. L) + Q(L) > ши(Ё ЕЯ), 


где J(A,L) — критерий соответствия, а Q(L) — критерий качества прообраза, 
связь которых с рассмотреннымн выше мультииликативными критернями очевидна. 
Положнв 


А.Г.) = -log( K(A, L)), 
QIL) = -log( M(L)), 


убеднмся, что эти крнтернн оказываются практнческн эквнвалентнымн. Прн этом 
стандартная область значеннй [0,1] отображается па интервал (+00,0), что позволяет 
рассматривать такне критерии как штрафные: абсолютно достоверным элементам 
в них соответствует нулевой штраф, а абсолютно недостоверным — макснмальный 
(бесконечный). Естественно, максимально достоверному прообразу L соответствует 
минимум штрафа. 

Ясен и семантический смысл таких аддитивных критериев в рамках рассматри- 
ваемой когнитивной модели. Еслн элементы мультипликативного критерия рассмат- 
ривать как вероятности, то величнна «минус логарифм вероятности» с точки зрении 
шеппоповской теорнн ниформацин нмеет смысл «ниформацнн» (на самом деле форму- 
лы здесь получаются несколько более сложные, но сутн рассужденнй это не меняет). 
Зиачит, адднтнвные крнтерни можно назвать информационными критериями мор- 
фологического анализа, н заключаются онн в требованнн подбора такого прообраза 
L, который обеспечнвал бы мннимум ипформацин (и, соответственно, максимум эн- 
тропии), содержащейся в сообщеннн о паблюдеинн образа А нли признаков E(A). 

В аддитивной форме в критерий оптимизацин часто включают также дополнитель- 
ный параметр о: 


O(A, L) = (4, L) +æ: Q(L) ^ min(L € 9). 


Bo многнх случаях ero удобно использовать в качестве настроечного или структу- 
рирующего параметра, поскольку он в явпом виде определяет компромисс между 
протнворечнвымн требованнямн соответствня и качества реконструкцин данных. В 
таком виде этот крнтерий также нмеет смысл крнтерня регулярнзацин некорректной 
задачи (Тнхонов, [74]). 

В мультнплнкатнвиой форме соответствующий критернй имеет внд 


K(A,L) - M(L)* — nax(L € Я). 


Принцип максимума информационной энтропии. Обсуждаемые процедуры cer- 
ментацнн названы критериальными илн оптимальными, так как в основе нх лежнт 
решенне задачн оптнмнзацнн для некоторого заданного вида функцнонала качества. 
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Но как выбрать сам внд функцнонала и его параметры некоторым «нанлучшим» об- 
разом? Это завнсит от тех семантнческнх соображеннй, которые служат основой для 
построення процедуры сегментацин. Одним нз возможных подходов здесь является 
так называемый информационно-энтропийный подход. Рассмотрнм его на прнмере 
задачн вылелення внднмых прямых лнннй (прямолннейных групп точек) в бннарном 
точечном паттерне (БТП). 

Пусть крнтернй сегментацнн нмеет внд 


[№ — М | + хп — min(n), 


где № — колнчество всех точек наблюдаемого бннарного паттерна, №; — колнчество 
точек, лежащнх на п выделенных прямых; [No — №| — критерий соответствия 
паблюдення H модели, включающей п лнннй; п — чнело выделенных лнннй H, COOT- 
ветственно, показатель структурной сложности модели. 

Очевндно, B 3aBHCHNOCTH от значення параметра « на нзображеннн окажется Ue- 
лесообразным выделять прямые, содержащне большее HAH меньшее количество точек. 
Но как выбнрать сам параметр х? Обратнмся к ннформацнонно-энтропнйному подхо- 
ду. Задача понска фигур (лнннй) па нзображеннях точечных множеств в самой сво- 
ей постановке опнрается на пронзвольное допущенне о том, что бннарные точечные 
паттерны действнтельно содержат нскомые фнгуры (линин). На самом деле точеч- 
ные фигуры, которые вндит в БТП человек, возннкают лншь в процессе актнвного 
зрительного восприятня нз-за свойства нашей зрнтельной снстемы «органнзовывать» 
внднмый мнр, нспользуя прн этом уже нзвестные формы. 

Одно из известных объясненнй «организующего» характера зрнтельного воспрн- 
ATHA основано на принципе максимума энтропии. В теорин информацнн энтропия 
Е связана с количеством информации 1 соотношеннем E = —1. Поэтому в теорни 
информацин прннцнп макснмума энтропин означает, что любая информационная 
система преобразует поступающие в нее сигналы так, чтобы обеспечить мини- 
мальное возможное количество информации, находящейся в системе. 

Применнтельно к воспрнятню точечного паттерна это означает, что зрительная 
система группирует видимые точкн в Te нлн нные известные ей фигуры в TOM слу- 
чае, когда такос представление информацнн выгоднее (в смысле экономин колнчества 
ипформацин), чем ee нсходное представление в внде иеорганнзоваиного (несегмен- 
тнрованного) множества точек. Такой подход, в частности, позволяет дать строгую 
математнческую формулнровку задачн определения чнсла прямых, которые «имеет 
смысл обнаружить» прн апалнзе аккумулятора преобразовання Хафа [188]. В более 
широком смысле он позволяет оценнвать допустимую сложность моделей в различных 
задачах морфологической сегментацнн. 

Проблема переобучения модели и метод регуляризации. Другой способ нитер- 
претацнн обсуждаемого вида крнтерия связан с распространенным в областн распо- 
знавання образов понятнем переобучення н методамн регулярнзацнн некорректных 
задач. 

Рассмотрим простейшую задачу «нанлучшего» прнближення экспернментальной 
функции одной переменной, про которую нзвестны только ее значения у; в № «обу- 
чающнх точках» Ti, степенной функцней порядка n (рис. 6.3.3). Стандартный мето2 
наименьших квадратов COCTOHT в решеннн миннмнзацнонной задачи 


м N 
У е0), yi) = У (ао + azi + are? +... + аьа) = yi)? — min 


где через e(z,y) = {2 ~ y)? обозначена квадратнчная функция ошнбкн, а = (а, a), . -Gv 
Решенне этой задачн известно для любого фнкснрованного n < N. Но как cae- 
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дует выбнрать п (то есть сложность моделн аппрокснмацнн)? Оказывается, na- 
же самым точным образом прнблнжая функцню на обучающнх точках эксперн- 
ментальной крнвой (в пределе ошибка может вообще стать равиой нулю, как на 
рнс. 6.3.36), мы в нтоге получнм (методом нанменьшнх квадратов) такое реше- 
HHe, которое будет достаточно плохо аппроксимировать вновь поступающне дан- 
ные, не входившне в обучающую выборку. Дело в том, что решение с мнннмаль- 
чой ошибкой оказывается неоправданно сложным — аппроксимирующая функция 
старательно отрабатывает все случайные флуктуацнн нзмереннй и He в состоя- 
нни отследнть основную форму тренда. Такая снтуацня называется переобучением. 


Рис. 6.3.3. Иллюстрация почятия переобучения: а — исходное множество зкспериментальных H3Me- 
рений; б — максималыю точиый алпроксиматор сильно ошнбастся па новых измерениях 


К») х 
х 


Рис. 6.3.4, Иллюстрация метода регуляризации: в — регуляризованный аппроксиматор меньше оши- 
баегся на новых измерениях: г — слишком сильно регуляризоваиный аппроксиматор 


Перейдем теперь к регулярнзацнн рассматрнваемой задачи. Известно, что статн- 
стнческн лучшее прнближенне можно получить, решая подобную мнннмнзацнонную 
задачу c добавленным штрафом за сложность аппрокснмирующей функцин, например, 
с квадратичным штрафом (а) пропорцнональным ||а||?: 


м N 
E(a) + Y AJ (X:) y) = allal? + У (ao + aizi + aaz? +... + aat? — yi)? > min. 


і=1 i=l 


Этот метод называется регулярнзацней и позволяет получать устойчнвые решения не 
только для задач аппрокснмации данных, но н для задач распознавання образов [11], 
1336]. Как видно из рис. 6.3.4, разлнчный выбор параметра œ позволяет здесь управ- 
лять сложностью описания данных и соответственно — устойчнвостью и точиостью 
получаемого решения. 

Следует отметить, что проблема переобучения находится также в центре внимания 
теории распознавакия образов (теории машинного обучення). Здесь переобученными 
классификаторами называются такие распознающие алгоритмы, которые обесиечи- 
вают малую ошибку на обучающем наборе, но часто ошибаются на независимых 
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тестовых данных. В ходе решеиня проблемы переобучення в конце 1960-х — начале 
1970-х годов советскнмн математнкамн В. Н. Вапннком н А. Я. Червоненкнсом [11] бы- 
ли заложены основы теорнн восстановлення завнснмостей no эмпнрнческнм данным, 
которая сегодия чаще называется теорей вычислительного обучения (computational 
learning theory, COLT). В 1980-е годы эта теорня получнла шнрокую мнровую нзвест- 
ность, H в настоящее время продолжает активно развнваться, в TOM чнсле н B Росснн 
[75]. 

В рамках данной теорнн множество всех объектов счнтается вероятностным про- 
странством с некоторой, вообще говоря, неизвестной вероятностной мерой. Обучаю- 
щне объекты выбнраютея случайно н незавнснмо согласно этой мере. Фнксируется 
некоторое семейство алгоритмов. Процесс обучення заключается в построенни ал- 
горитма, принадлежащего данному семейству и доставляющего минимум эмлириче- 
скому риску на заданной обучающей выборке. Обобщающая способность алгорнтма 
характернзуется вероятностью ошнбочной класснфнкацни. В общем случае нензвест- 
но. какой нменио алгорнтм будет построен в результате обучения. Поэтому водится 
требованне равномерной сходимости частоты к вероятности: частота ошибок должна 
не снльно отклоняться от их вероятностн одновременио для всех алгоритмов семей- 
ства. Стремленне этого отклонення к нулю с ростом длины выборкн приннмается за 
определеине обучаемости семейства алгоритмов. 

Главным результатом теорнн Вапннка-Червоненкнса являются колнчественные 
оценки, связывающие обобщающую способность алгоритмов с объемом обучаю- 
щей выборки и сложностью семейства алгоритмов. Эти оценки дают достаточные 
условия обучаемости. При этом сложность семейства алгоритмов (сложность класси- 
фикатора) оценивается так называемой размерностью Вапника-Червоненкиса (VC- 
размерностью). Пусть J — семейство функций нз R” в R, описывающее модель pe- 
грессии вида у = /(х.а). Размерность Вапника-Червоненкиса (УС) семейства J есть 
такое целое число h, что существует группа из h точек в R”, которая может быть раз- 
лелена функцией из данного семейства, н не существует группы из (h + 1) векторов, 
которыми можно их разделить. 

Созданный Ваппиком и Червоненкисом метод структурной минимизации риска 
является одним нз основных источников описываемого ниже критериального морфо- 
логического подхода. | 


6.3.3. Морфологический взгляд на основные классы моделей, используемых 
в анализе изображений. Ранее (в разделе 5.1) мы уже рассматривали основные 
классы математических моделей, используемых в анализе изображений. Рассмотрим 
их вновь — но теперь уже с морфологической точки зрения. Здесь нам придется 
в значительной мере повторить уже изложенное в разделе 5.1, дабы не вынуждать 
читателя, возможно, изучающего каждый раздел в кииге независимо, отвлекаться Hà 
выяснение вопросов, раскрытых в других разделах. 

Изображение как функция векторного аргумента. Как пра- 
вило, исходным описанием изображения на практике является двумерная функция 
интенсивности f. В таком случае 


Q= F” = {Дать 11): X(f) € R” > Z(f) € R}, 


где В — множество действительных чисел; F” — простраиство скалярных функ- 
ций п-мерного аргумента; X(f) — область определения векторного аргумента 
X= (тр,...2.) Z(f) — область значения функции. При n = 2 можно говорить 
о морфологиях изображений }(т,у). Соответственно все ранее введенные NOHA- 
тия и утверждения, опнсывающие критерии морфологического анализа в терми- 
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нах критериев-функций, необходимо в таком случае рассматривать в терминах 
критериев-функционалов. 

Многие методы анализа изображений, в которых изображения рассматриваются 
как двумерные функции, предполагают, что Q = Е" является гильбертовым npo- 
странством, то есть определены понятия сложения и умножения функций, умноже- 
ния функции на число, скалярного произведения функций, нормы функции, линейного 
пространства, линейного подпространства, базиса подпространства и т. д. и т. п. Все 
эти понятия позволяют перенести в область анализа изображений все известные ме- 
тоды и результаты из области линейной алеебры и векторных пространств [57]. 
Также часто предполагается, что изображения-функции являются необходимое число 
раз иепрерывно интегрнруемыми н дифференцируемыми. Это позволяет перенести в 
область анализа изображений все известные методы и результаты из области YHK- 
ционального анализа |57]. 

Функцнональное представление изображений также естественным образом обоб- 
щается на случай т-компонентной векторной функции п-мерного аргумента 


Я = (f(x) = Ка. . 01): ХФ C R” — Z(f) сл"), 


причем векторные функции также могут рассматриваться как элементы гильбертова 
пространства. Важным частным случаем векторных нзображений являются цветные 
изображения (m = 3), описанные в одной из стандартных цветовых кодировок: RGB, 
СМУ, YUV, YCbCr, HSV и т. п. При этом геометрия цветового пространства нмеет 
ряд важных свойств, связанных с особенностями зрительного восприятия человека, 
которые существенно отлнчаются от обычных свойств многомерного пространства, 
описываемых евклидовой метрикой [19]. 

Векторные изображения также могут порождаться при съемке одной и той же сце- 
ны датчикамн различной физической природы (электромагнитными, акустическими 
и др.) или набором датчиков, осуществляющих регистрацию электромагнитного из- 
лучения различных Олин волн (видимый, инфракрасный, ультрафиолетовый диапазо- 
ны). Такая съемка называется многозональной, многоспектральной или даже гипер- 
спектральной (если используется большое количество узких диапазонов длин волн). 
Векторные изображения также порождаются искусственно — в результате выделения 
локальных признаков. когда каждый пиксел изображения описывается набором из т 
признаков. 

Заметим также, что вектор пространственных параметров изображения х не 
всегда представляет собой набор компонент декартовых прямоугольных координат. Во 
многих системах получения и анализа изображений нспользуются другие типы про- 
странственных коордннат, напрнмер, полярные координаты азимут-дальность или 
кодирование узлов шестиугольной решетки, обладающей лучшими топологически- 
ми свойствами по сравнению с прямоугольной решеткой, узлы которой отстоят друг 
от друга на неравные расстояния. 

Более широким обобщением функционального представления изображений явля- 
ются наборы, или ансамбли изображений: 


Я = (F(x) = (fi(z1... 25) 21.5 : (Л) € P 5 2(Д) e E"). 


Отличие ансамбля изображений от векторного изображения заключается B TOM, что 
хотя все изображения набора соответствуют одной и той же видимой сцене (наблюда- 
емому объекту или процессу), попиксельное соответствие одноименных элементов 
различных функций ансамбля, имеющих одинаковые значения аргумента, не предпо- 
лагается. Можно считать, что векторные изображения, в которых такое попиксельное 
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соответствие имеется, являются частным случаем ансамблей изображений. Типичны- 
ми ансамблями изображений являются стереоизображения, получаемые в резуль- 
тате съемки одной и той же статической сцены несколькими камерами, имеющими 
различное пространственное положение, и видеопоследовательности, получаемые B 
результате съемки в различные моменты времени некоторой динамически изменяю- 
щейся сцены. Одноименные пикселы разлнчных изображений ансамбля в общем слу- 
чае могут соответствовать различным пространственным или временным элементам 
наблюдаемой сцены. Вследствие этого одной из первичных задач анализа ансамблей 
изображений является задача отождествления (matching) тех элементов (фрагмен- 
тов) различных изображений ансамбля, которые соответствуют одним и тем же эле- 
ментам сцены наблюдения. Конечной задачей анализа ансамбля изображений, как 
правило, является реконструкция пространственной (30) или пространственно- 
временной (40) информации о сцене наблюдения. 

Ниже, если иное дополнительно не оговаривается, мы будем предполагать, что 
NQ = F? — пространство полутоновых двумерных изображений. 

Изображение как совокупность точек, Пусть изображение f(x) 
представляет собой т-компонентную векторную функцию п-мерного аргумента 


f(x) = f(zi,...,24) : X(f) € R” > Z(f) c R", 


Такая функция всегда может быть эквнвалентным образом представлена как бинарное 
отношение 


B(p): X(f) x 2(0) — {0,1}, 


где (п + т)-мерный информационный вектор p = (х,2), ХЕХ, ze 2 содержит non- 
ный набор сведений как о геометрических, так и о яркостных характеристиках эле- 
мента (пиксела) изображения f(x). Иными словами, описывая изображение бинарным 
отношением В(р), мы тем самым рассматриваем его не как функцию (отображение 
множества X па множество Z), а как совокупность точек (n + т)-мерного простран- 


ства X x Z: 
B = (p: B(p) = 1). 
Простейший случай такого представления — бинарное изображение 
b(x) : X — (0,1), 


являющееся одновременно и бинарной функцией (Z € (0,1)), и бинарным отношени- 
ем, в котором информационный вектор содержит только пространственные коорди- 
наты, а соответствующее мпожество точек В называется точечным паттерном (dot 
раНегп). Анализ пространственных конфигурацнй, образуемых бинарными точечными 
паттернами — одна из старейших классических задач анализа изображений. 

Другим частным случаем здесь является график функции изображения 


В(Кх)) = {р = (х,2) : x € X, z € Z, Қх) = 2}. 
В полутоновом случае часто используется также тень (umbra) изображения [337] 
В(/(х)) = {р = (х,2) : ХЕХ, ze R, f(x) > г). 


Для бинарного изображения, очевидно, график и тень совпадают с самим изображе- 
нием. 
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Представление изображения в виде множества точек позволяет определить для 
изображений операции объединения, пересечения, дополнения и отношение включе- 
ния, тем самым распространяя на область анализа изображений методы и результаты 
из области теории множеств [58]. 

Изображение как топологический объект. Пусть теперь множе- 
ство X x (в частном случае — только пространство X) является топологиче- 
ским пространством [10], то есть для точек даиного множества определены понятия 
окрестности и соседства. Тогда изображение, представлениое в качестве совокуп- 
ности точек (точечного паттерна), может быть рассмотрено как топологический объ- 
ект, т. е. описано в терминах топологических элементов: связных областей, границ 
областей, связных линий и изолированных точек. Соответственно, могут быть опре- 
делены топологические меры сходства и топологические преобразования, сохра- 
няющие или определенным образом изменяющие топологические свойства (число 
и соотношение топологических элементов) изображения. Таким образом, представле- 
ние нзображения в виде списка или множества точек позволяет также перенести в 
область анализа изображений методы и результаты из области топологии. В частно- 
сти, теория покрытий, будучи перенесена в область анализа дискретных бинарных, а 
затем и полутоновых изображений (рассматриваемых как «TeHH»), привела к созданию 
математической морфологии Серра [240]. 

Если к тому же множество X х Z (в частном случае — только пространство X) aB- 
ляется метрическим пространством, то есть для любых двух информационных век- 
торов может быть определена функция расстояния между HHMH, удовлетворяющая 
известным аксиомам, то на спискн точек изображения автоматически распространя- 
ются также все методы кластерного анализа (231. Заметим, что методы кластерного 
анализа по-своему также анализируют топологию объектов многомерного простран- 
ства. Впрочем, для пространств низкой размерности они зачастую оказываются в 
значительной степенн избыточными. 

Изображение как геометрический объект. После того как на 
множествах точек мы ввели топологию и метрику, остался всего одии шаг до то- 
го, чтобы рассматривать изображения как геометрические объекты. Исторически 
анализ изображений, безусловно, восходит к такой области математики, как гео- 
метрия — первая созданиая человечеством наука, предназначенная для описания и 
получения пространственной информации, предметом изучения которой являются 
контурные или заполненные геометрические фигуры. Исходно под геометрическими 
фигурами понимались такие фигуры (замкнутые или разомкнутые линии), которые 
могут быть построены «при помощн циркуля и лннейки», то есть состоят из конечного 
множества прямолинейных отрезков и дуг окружностей. Впоследствии, с развитием 
аналитической геометрии, под гсомстрическими фигурами в широком смысле стали 
понимать любые множества точек, представимые уравнениями или неравенствами 
(системами уравнений и неравенств) в некотором координатном пространстве. 

Из области аналитической геометрин анализ изображений заимствует следующие 
основные элементы: 

® геометрические преобразования изображений, свойства этих преобразований; 

e параметрическое описание множеств точек в координатном пространстве; 

® геометрическая логика (сведения из планиметрии и стереометрии, правила 
геометрического вывода): 

® способы построения и отыскания фигур. 

Геометрические преобразования. Регулярные преобразования коор- 
динатного геометрического пространства (сдвиг, масштаб, поворот, аффинное и проек- 
тивное преобразования) позволяют описать те условия регистрации изображений объ- 
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ектов и сцен, которые наблюдаются в различных практических задачах. Как известно, 
алгебраический подход [10] позволяет обобщить все частные виды преобразований 
понятием группы преобразований. Назовем преобразованием любое отображение 


т:9 ~ Q. 
Группой Т называется такое множество преобразований, что V AEQ 


3c ЕТ: (А) = А; Y t.0 € T : t(0(A)) = о(1(А)); 
УтєТ Эт! єТ:т(т-!(А)) «a !(n(A)) = A. 


С учетом понятия группы преобразований легко дать морфологическую формулировку 
задачи инвариантного обнаружения некоторой фигуры на изображении, подвергаю- 
щемся в ходе регистрации яркостно-геометрическим преобразованиям из Т. Пусть 
дан эталон В є 9 и наблюдается изображение АЕ Я. Тогда с морфологической точкн 
зрения сравнивать A нужно не с В, a с гнпотетическим прообразом L = т(В): 


Фо(А, В) = L  1(B) : $(4, L) = К(А,т(В)) - M(x) — max(s € T). 


Поскольку благодаря координатному подходу все геометрические преобразования B 
аналитической геометрни являются параметризованными, причем размерность векто- 
ра параметров n соответствует числу степеней свободы преобразования, всегда мож: 
но определить параметрическое описание множества преобразований Л=В", взаимно 
однозначно связанное с группой преобразований нзображения 


Тел = А". 


С учетом этого морфологическая постановка задачи инвариантного обнаружения npH- 
нимает привычный вид 


co (4, B) = А: Ф(А,А) = К(А,5в(^)) - М(Х) — max(A € A), 


где ó5(À) = т(А)(В) — функция реконструкции прообраза по описанию (A, В}. Ta- 
кую модель можно назвать трансформационной моделью изображения. Заметим. 
что такая постановка задачи не является, вообще говоря, чем-то новым даже для 
древнегреческих геометров. Примером задач инвариантного обнаружения являются. 
в частности, классические задачи на построение подобных фигур, предполагающие 
инвариантность метода построения к сдвигу, повороту и масштабу. 

Параметрнческие описания. Рассмотрим классическое определение 
геометрической фигуры, например окружности: «Окружность — это множество то- 
чек плоскости, находящихся на одинаковом (фиксированном) расстоянии от некото- 
рой фиксированной точки, называемой центром окружности». То есть геометрическая 
фигура есть множество точек, на которые наложены некоторые условия. Так, опи- 
сание окружности в декартовых координатах (T, y) имеет вид 


О(хо,уо,т) = { (2,0) : (z cl то)? + (у = yo)? = r2), 


где (х,у) — координаты точки, (ro,go,r) — три свободных параметра уравнения 
окружности. При этом между параметрами аналитических уравнений (неравенств) и 
рассмотренными только что параметрами групп геометрических преобразований име- 
ется естественная и очевидная связь. Например, изменения параметров (ro,yo) при- 
водят к плоскопараллельному сдвнгу окружности, а измененне параметра г — к изме- 
нению ее масштаба. Значит, параметры уравнения окружности О(А) параметризуют 
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группу преобразований эталонного образа, включающую сдвиг и масштабирование 
плоскости изображения. Соответственно, задача поиска (построения) окружности по 
заданным точкам вновь сводится к стандартной морфологической форме 


ЕФф(А) = А: Ф(А,А) = К(А, 5(А)) - М(Л) — тах(А € A), 
ôB (à) = т(А)(В), (А) ЕТ, А = R. 


Таким образом, с морфологической точки зрения трансформационные модели ока- 
зываются эквивалентны параметрическим моделям, 

Геометрическая логика, В классическом труде Евклида геометрия пред- 
ставлена в виде некоторой базы знаний, включающей определения (первичные моде- 
ли объектов), постулаты (апрнорные знания об объектах и их свойствах) и теоремы 
или задачи (целевые утверждения), которые требуется соответственно доказать или 
построить, используя некоторый стандартный механизм логического вывода. Имен- 
но эту схему получения знаний из изображений воспроизводят сегодня системы ло- 
гического программирования [59], [60], включая системы геометрического вывода. 
Задачам «на построение» при этом соответствуют задачи обнаружения, а задачам «на 
доказательство» — задачи распознавания (верификации или идентификации) объек- 
тов (см. Д. Пойа «Математическое открытие» [61]). При этом множество исходных 
моделей, априорных утверждений ‘и правил вывода образуют в каждой конкретной 
логической системе анализа изображений некоторую специальную геометрическую 
логику, в общем случае принимающую форму пространственно-временной логики 
аналнза сцены. Кроме того, во всех современных системах машинного зрения в явной 
или опосредованной форме всегда используются собственно геометрические сведеиия 
и соотношения, почерпнутые из планиметрии, стереометрии, проективной геомет- 
рии и других разделов геометрической науки. 

Способы построения и отыскаиия фигур. Рассмотрим известный 
Евклиду метод общих геометрических мест на примере задачи построения окруж- 
ности по трем заданным точкам. Заметим, что выше мы уже показали, что задача 
построения окружности есть морфологическая задача реконструкции неизвестного 
параметрического описания À = (то, ут) по наблюдаемому образу, который в дан- 
ном случае представлен множеством точек А = (p, = (21,1), р, = (22,7), р; = 
= (13, уз)}. Решение этой задачи методом общих геометрических мест заключается 
в следующем. Проведем серединный перпендикуляр Liz к отрезку (р,, pz). Данная 
линия является геометрическим местом (то есть множеством положений) центров 
всех возможных окружностей, проходящих через точки p, и p». Независимо от это- 
го, проведем также серединный перпендикуляр Los к отрезку (ро, рз). Данная линия 
также является геометрическим местом (то есть множеством положений) центров 
всех возможных окружностей, проходящих через точки Pz и рз соответственно. Hc- 
комая часть решения (центр искомой окружности) находится как точка пересечения 
двух этих геометрическнх мест: 


Ро = (20,00) = Lia N Los. 
Оставшаяся часть решения (радиус окружиости) определяется как 


r= [Ро — Pill. 


В терминах современной обработки изображений рассмотренный способ решения за- 
дачи на построение окружности есть пример процедуры голосования пар точек изоб- 
ражения в пространство параметров, описывающих положение искомого объекта. 


422 МОРФОЛОГИЧЕСКИЙ АНАЛИЗ ИЗОБРАЖЕНИЙ ГЛ. 6 


Методы голосования прииято описывать в терминах, восходящих к преобразованию 
Хафа (Hough Transíorm, HT), предназначенному для обнаружения прямых линий 
[188]. Позже Баллард [123], [124] и Дэвис [140|, [142], [143], [146]-[148] развили 
технику голосования не только на случай обнаружения любых аналитических кри: 
вых, HO H на случай обнаружения объектов произвольной формы (T. н. «обобщенное 
преобразование Хафа», СНТ). Эта современная модульная схема анализа изображе- 
ния, предполагающая голосование точек изображения в пространство парамет- 
ров н последующий анализ аккумулятора, является непосредственным обобщением 
классического метода общих геометрических мест на случай избыточных, проти- 
воречивых, неточных данных. Более того, метод общих геометрических мест уже 
содержнт указание на такие способы достнження вычнслительной эффективностн 
процедур голосования, как независимое голосование свидетельств, а также деком- 
позиция вектора параметров [333]. 

С учетом вышеизложенного морфологический анализ изображений можно рас: 
сматривать как некую «обобщенную геометрию», отличия которой от классической 
геометрии заключаются в следующем: 

Яркостно-геометрические аспекты. Здесь отличия по сравнению с классической 
геометрией заключается в переходе от непрерывных точек, линий и поверхностей 
к дискретным лнниям, областям и объемам; переносе фокуса внимания с простых 
H «правильных» фигур на сложные неаналнтнческне формы; наличнн у paccMaTpH- 
ваемых геометрическнх объектов дополннтельных негеометрических характеристик 
(интенсивность, цвет и т. п.). Все эти яркостно-геометрнческие аспекты можно объ- 
единить традиционным термнном «морфология изображения». 

Логико-вероятностные аспекты. В классической геометрии никогда He рассмат- 
риваются ложные, помеховые или неточные данные. В связи с этим классическая 
проблема обоснования получаемых выводов и решений также получает в анализе 
изображений более широкое толкование. Обоснование решения может быть и строго 
логическим, но гораздо чаще оно является вероятностным или нечетким. 

Вычислительные аспекты. Древнегреческие математики рассматривалн вычис- 
лительный базис (циркуль и линейку) как непременную часть постановки геомет- 
рической задачи. Специфика современных задач анализа изображений определяется 
необходимостью учитывать конкретную архитектуру, объем памятн и быстродействие 
заданного вычислителя при указанных ограничениях на эти параметры. 

Изображение как совокупность независимых признаков. 
Доведем до конца идею представлення изображеиня как совокупностн независимых 
информативных элементов. При этом перейдем от рассматривавшегося выше про: 
извольного множества информативных элементов (геометрнческнх точек, информа: 
ционных векторов) к более жесткой структуре — упорядоченному набору (масснву| 
информативных элементов заданиого размера, то есть вектору признаков. 

Назовем признаком результат любой однозначной функции, которая ставит в со- 
ответствие изображению некоторое численное значение. Пусть даны множество обра- 
зов Q и множество признаков (скаляров) V. Опишем операцию измерения признакс 
функцией вида 


7:94. 


причем любому АЕ N соответствует единственное значение f(.4) є V. Набором npu- 
знаков назовем вектор 


КА) = (Л(А)...., fal A) € V^, 


где Y^ — пространство признаков; п — количество признаков B наборе или pa3Mep- 
ность пространства признаков. Соответствуюшую операцию признакового описания 
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образа можно определить как отображение 
[:0 9 v^. 


Пусть теперь определено множество модельных образов (модель), между элемента- 
ми которого и элементами пространства признаков существует взаимно однозначное 
соответствие 

МСО: Мот”. 


Это позволяет определить проектор Pr(A, M). Соответствующую унитарную морфо- 
логию можно назвать морфологией на базе признаковых описаний. Морфологии на 
базе признаковых описаний могут быть также рассмотрены как модульные морфоло- 
гии. Действительно, пара операторов (c = f, $ = £7!) определяет модульную морфо- 
логию (Q, Л = Ф", csi, 6 xt). 

Заметим, что распространенным частным случаем признакового описания изобра- 
жения является его естественное взаимно однозначное описание вектором всех пик- 
сельных значений. В таком случае модельное множество М элементарно трактуется 
как набор эталонных изображений объекта. Заметим также, что трансформацион- 
ные н параметрические описания ЛЕ R” также представляют собой частный случай 
векторов признаков, однозначно параметризующих модельное множество образов. 

Важными понятиями, рассматриваемыми в связи с признаковыми описаниями 
изображений, являются инвариантность (устойчивость к преобразованиям), ро- 
бастность (устойчивость к искажениям), информативность (избирательность 
на множестве образов), способность к локализации и ряд других [293]. В частно- 
стн, в терминах признаковых описаний можно дать следующую формулировку задачи 
обнаружения и идентификации объектов 


Q4(A,À,H) = К(п(А, ^1), 5(А,, Н)): М(А, Н): M(H) ~ 
— max(A € A. H € (Hi,..., HN)), 


где А = (A1,A2): Àı — подвектор признаков локализации, не зависящих от типа объ- 
екта Н, а зависящих только от условий регистрации; Àz — подвектор признаков 
идентификации, желательно инвариантных к условиям регистрации: 7(À,À,) — one- 
рация согласованной вырезки области интереса; 6(M,H) — операция реконструкции 
(синтеза) изображения объекта H с параметрами локализации Ài; M (M. Н) — модель, 
описывающая соответствие значений признаков идентификации альтернативным FH- 
потезам из (Н\,...Нм}. 

Перейдем теперь от рассмотрения описаний, состоящих из независимых элементов 
(признаков, параметров}, к описаниям, на элементы которых накладываются опреде- 
ленные связи, то есть к структурным моделям. 

Изображение как структура. Структурные модели изображений поз- 
воляют перенести в область анализа нзображений все известные методы и результаты 
из области анализа структур [22], которая, впрочем, сама создавалась под значи- 
тельным влиянием задач из области геометрии и анализа изображений. В самом деле, 
вспомним типовое определение простой геометрической фигуры: «множество точек, 
удовлетворяющнх следующему условию (кабору условий)... ›. В то же время из npo- 
стых фигур (иапример, из отрезков) формируются составные фигуры (треугольннки, 
прямоугольннки, трапецин,...). Определение такой составной фигуры имеет анало- 
гнчный внд: «множество отрезков, удовлетворяющих следующему набору условий, 
накладываемых на связи (отношения) между ними...», причем в качестве харак- 
теристик отношеннй между отрезками используются элементы геометрической логи- 
ки — параллельность, коллинеарность, соседство, перпендикулярность и т. д. Заменяя 


424 МОРФОЛОГИЧЕСКИЙ АНАЛИЗ ИЗОБРАЖЕНИЙ гл. 6 


конкретные слова «ТОЧКИ» и «отрезки» на обобщающий термин «элементы заданного 
типа», получим общее определенне структурной модели: «множество элементов за- 
данных типов, удовлетворяющих набору условий, описывающих связи (отношения 
элементов) заданных типов». 

Формализуем понятие структурной модели. Упорядоченный набор образов А = 
= (41,42... Án) CN” назовем полным структурным описанием образа А, если 
образ А € 2 может быть полностью однозначно реконструирован путем объедннения 
элементов H3 А: 

А = (А) = A10 A9 6... Aq, 


где 6 — операция структурной реконструкции образа no структурному описанию: 
Ф — операция объединения образов из 9, на которую в общем случае не накладыва- 
ется никаких дополнительных условий, кроме того, что {1 замкнуто относительно €. 
Необходимо отметить, что типичный для нзображения эффект загораживания одних 
объектов другими, в отлнчие от многих других областей приложения структурного 
анализа, делает принципиальным порядок объединения (наложения в поле зрения) 
элементов виднмой сцены. Позтому операция Ф в общем случае не может быть ни 
симметричной, ни ассоциативной, хотя иногда такое ограничение все же накладыва- 
ется. 

Рассмотрнм теперь, как на базе структурных описаний строятся модели объектов. 
Пусть прообраз L состоит из п составляющих 


L =6(L) = Li @ L20... ® Ln, 


причем известны типы элементов, задаваемые характеристнческими предикатами 
типа элементов М; (14) Е (0,1), і = 1,...„т. Пусть, кроме того, заданы т условий 
или предикатов связи M*(L) Е {0,1}, К =1,....т. Тогда модель прообраза прини- 
мает вид: 

M(L) = Mi(Li) ...: Mn(Ln) - M? (L) <... М"). 


C учетом этих обозначений задача структурной морфологической сегментации мо- 
жет быть вновь записана в стандартном виде: 


Фе(А) = &(L), ce(4) =L: Ф(А,1) = К(А,5(1.)) . M(L) ^ max(L € A = 9"). 


Еслн при этом считать n и т переменными параметрами, также подлежащими опти- 
мизации, а предикаты рассматривать как вероятностные или нечеткие, принимающие 
значения на [0,1], то описанная задача структурной морфологической сегментации 
будет соответствовать наиболее общему случаю структурного анализа изображений. 

К сожалению, для общего случая задачи морфологической структурной сегмента- 
ции неизвестны вычислительно эффективные алгоритмы отыскания решения. В связи 
с этим в литературе по структурному анализу изображений предложено множество 
различных частных типов структурных моделей, для которых за счет дополнительных 
ограничений оказывается возможным построение эффективных или, по крайней мере, 
конструктивных (эффективных по сравнению с полным перебором) методов решения. 

Рассмотрим наиболее популярные типы таких моделей. 

Алгебра изображений. В предложенной Риттером [285] алгебре изобра- 
жений для структурного представления образов вместо универсальной операции € 
используется У — коммутативная и ассоциативная операция универсальной редук- 
ции или объединения образов, образующая на 9 полугруппу, ноль которой совпадает 
с «нулевым образом» 2: 

А = А УА2\У...У Ån. 
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При этом Q является пространством функций, а V имеет смысл максимума, миниму- 
ма, суммы или произведения образующих. Важным свойством такого представления 
является инварнантность данной структуры к группам преобразований, действующим 
на Q, поскольку 


Vt €T :x(A) = т(А,) Ут(А2) V ... V t(AÀ.). 


B рамках такой структуры удобно ставить и решать задачи структурной сегмента- 
ции и интерполяции изображений. 

Разложения по системам ортогональных функций. Гар- 
монический анализ. В таких методах, как преобразование Фурье, вейвлет- 
преобразования и других, основанных на линейных разложениях изображений (функ- 
ций) по различным системам ортогональных образующих, операторы высокочастот- 
ной, низкочастотной и тому подобной фильтрации являются морфологическими филь- 
трамн (проекторами) в описанном выше смысле. Роль образующих здесь играют 6a- 
зисные функции разложения. Операция объединения образующих представляет CO- 
бой их линейную комбинацию: 


(2,0) = Уау), 


где fi(z,y) — i-a базисная функция разложения; a, — соответствующий і-й коэффи- 
циент разложения. Коэффициенты линейных разложений часто используются в каче- 
стве векторов признаков и спектральных характеристик при исследовании, сжатии 
и обработке изображеннй. 

Морфологический анализ Пытьева. Пусть изображения являются 
элементами гильбертова пространства изображений N~ L?. Тогда можно говорить 
о норме изображения ||А|| н расстоянии между изображениями, равном ||A — В||. 
Далее, пусть задано некоторое выпуклое и замкнутое подпространство изображений 
M € {). Тогда любому изображению А є 0 может быть поставлено в соответствие 
изображение L € M такое, что 


IIL — А| = min {В — All, B € M}. 


Легко убедиться, что такое отображение ф(А) : А — М всегда будет проектором, B 
том (алгебраическом) смысле, что ф(ф(А)) = ф(/А). Поэтому можно также обозначнть 
1, = Pr(A, M), т. e. «L есть проекция А на M». 

Используя введенное понятие проекции, можно определить численную меру бли- 
зости изображения к множеству изображений К(А, М) (морфологический коэффи- 
циент корреляции) вида 


Pr (A, M) 
ком) = EHA O, 


обладающую следующими практически полезными свойствами: 

1] 0<К(А, М) < 1, AEQ, MERN; 

2) К(А, М) 1«4A€ М. 

3) K(A, М) = 0 <= Pr(A, M) = е. 

Преимущества морфологического коэффициента корреляции связаны C возможно- 
стью более полного учета условий регистрации изображеннй. Пусть процесс реги- 
страции изображения описывается при помощи некоторой группы преобразований Т 
эталонного изображения g(z,y) Е Q. Определим форму изображения g как 


M(g) = (x(g): ЕТ}. 
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Тогда при помощи Кт(/,9) = К(/, М) можно сравнивать изображение с эталоном 
инвариантно к любым преобразованиям типа Т. Пусть, например, эталонное изобра- 
жение f является кусочно-постоянной двумерной функцией интенсивности вида 


f(E)= Уже, 


где x; — индикаторная функция і-й области разбиения кадра, а а; — цвет закраски 
1-Й области. Множество изображений той же формы имеет вид 


п 
М = [Dose : (bren bu) € n]. 
1 


Тогда проекционное преобразование можно считать параметрическим вида b; = Б(а;). 
где {= 1,....0 — количество уровней яркости на изображении. Соответственио для 
любого изображения g(x,y) проекция Рг (9, f) определяется набором параметров b: 


p, = SLOK (E, y) de dy 
t ff xit.) азау 


Таким образом, в морфологическом подходе Пытьева проективные операторы исполь: 
зуются для сравнения изображений между собой, а также для сравнения изобра- 
жений с обобщенными моделями (формами). Данный подход позволяет сравнивать 
между собой и модели, устанавливая между ними отношения «более простой /более 
сложный по форме». 

Именно формализм морфологии IO. П. Пытьева послужил прообразом описывае- 
мого в дапиом разделе морфологического подхода к анализу изображений. 

Математическая морфология Серра, В отличие от морфологии Пы- 
тьева и рассмотренных ранее линейных разложений по системам ортогональных функ: 
ций, предложенная Серра и Матероном популярная и эффективная парадигма анали: 
за изображений. получившая название математической морфологии изображений 
(ММ), основанна на нелииейных операторах, традиционно описываемых в теоретико- 
множественном формализме. Морфологическим фильтром в смысле Серра называет- 
ся такой оператор, который (а) является алгебраическим проектором и (6) сохраняет 
теоретико-множественное отношение включения. Математическая морфология Сер- 
ра использует два основных морфологических фильтра — открытие и закрытие. 
которые, в свою очередь, всегда могут быть представлены последовательной комби- 
нацией двух этапов анализа изображения при помощи двух других базовых морфо- 
логических операторов: расширения и сжатия. Роль образующих здесь играет набор 
структурирующих элементов, которые обычно порождаются из некоторого базового 
структурирующего элемента при помощи группы преобразоеаний. Например, при 
помощи груипы сдвигов можно определить следующую операцию морфологического 
открытия изображения А по структурирующему элементу В 


O(A,B) = сс Be) : B(z,y) € A), 


izl,..n. 


где В(х,у) — образ D, сдвинутый (транслированный) на вектор (z,y). Легко убедить- 
ся, что открытие является морфологическим проектором 


O(A, B) = О(О(А, B), В). 
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Данный оператор инвариантен к сдвигу. Кроме того, данный оператор проекцни яв- 
ляется монотонным в том смысле, что УА, В: O(A, В) C А. 

Математическая морфология Серра также является прообразом рассматриваемого 
морфологического подхода. 

Графовые представления структурных моделей. Задача 
индексации графа. Описание любой структурной модели всегда можно пред- 
gta B в виде соответствующего атрибутированного реляционного гиперграфа 

= {У,СК} такого, что множество его вершин У совпадает с множеством элементов 
и У. а трибуты вершин равны атрибутам соответствующих элементов (a(1)); 
гиперребра 9 соединяют подмножества элементов 5(9%) C V, если множество эле- 
ментов (vj) Е 5(9\), характеризуемых соответствующими атрибутами (a(vi)) может 
быть связано отношением g^, причем каждое гиперребро гиперграфа g^ характери- 
зуется соответствующим атрибутом (четким или нечетким предикатом) отношения 
равным pr^ 

Назовем свободной моделью структурный граф h(V), вершины которого помечены 
не конкретнымн элементами, а типами элементов, а гиперребра — соответственно 
не конкретными отношениями, а типами отношений. Под индексацией свободной 
модели объекта на множестве элементов А будем понимать такое отображение Г: 
А-У, что получаемый в результате гиперграф Т`(А) является реализацией свободной 
модели T(V) в том смысле, что все вершины T(V) оказываются связаны с подходя- 
щими по типу элементами из А, и при этом все отношения между этими элементами, 
соответствующие гиперребрам T(V), также удовлетворяются. 

Таким образом, задача обнаружения (распознавания) объекта на изображении по 
его структурной модели сводится к задаче индексацин соответствующего графа на 
миожестве элементов изображения. В зависимости от того, какова структура модель- 
Ы графа, задача ипдексации будет решаться тем или иным классом алгоритмов 

Порождающне грамматики. Структурно- лингвистический 
подход. Назовем алфавитом множество образующих 


X= {Хи.. Ха} СЯ. 


Грамматическим высказыванием (предложением) назовем любую упорядоченную 
последовательность элементов алфавита произвольной конечной длины k: 


Y= (Yi, Y): Y eX, Ye X. 


Множество всех возможных высказываний B алфавите X обозначим через M(X). Вве- 
дем операцию подстановки «—». замещающую одну заданную последовательность 
символов на другую: 

A — B: A,B € М(Х). 


При помощи этой операции можно записать правило вывода R, замещающее HekoTo- 
рую последовательность символов на некоторую другую последовательность в любом 
высказывании, в котором она встретилась: 


В(А — В), А,В с М(Х) 2 УУ\, У. Е M(X): В((У,,А,У2)-(У,, В, Y2)). 
Алфавит Х, набор правил вывода В и множество исходных высказываний (постулатов) 


Ө ЕМ(Х) вместе определяют грамматику Г = {Х.В,@}. Высказывание У называется 
правильным высказыванием в рамках грамматики Г, если в O существует такой 
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постулат, последовательно применяя к которому правила из В, можно Hà некотором 
шаге вывода получить (вывести) высказывание У. Выводимость У в Г обозначается 


У — Г. 


Множество всех утверждений, выводимых в Г (множество всех правильных выска- 
зываний данной грамматики), обозначим как М(Г) = (Y: Y < Г}. Его также можио 
описать предикатом M(Y,T) = (Y + Г}. 

Помимо описаниых простых грамматик могут также рассматриваться и контекст- 
ные грамматики. в которых правила подстановки зависят от контекста (окружаю- 
щих высказываний). Это повышает гибкость модельного описання, но не меняет сути 
структурно-линевистического подхода [45]. 

Пусть теперь L является структурным описанием прообраза L= 6(1.). Тогда 
задачу структурного морфологического анализа изображения можно вновь описать 
как задачу структурно-лингвистического анализа 


ФФ(А) = $(L).ce(4) = L: P(A, L) = K(A,8(L)) - M(LT) => max(L), 


то есть требуется найти наилучшие B смысле критерия К(А,5(1.)) описание L и 
прообраз 5L образа А в грамматике Г. Легко убедиться в TOM, что морфологический 
оператор P(A) будет проектором на M(T). 

Можно показать, что любой четкой структурно-лингвистической модели может 
быть поставлена в соответствие четкая реляционная (графовая) модель, и наоборот. 
Однако в случае работы с иечеткими и вероятностными моделями алгоритмы индек- 
сации графов представляются более предпочтительными. 

Изображение как двумерная проекция трехмерной сце- 
ны. Фотограмметрический подход [29], рассматривающий отдельные изображения 
и аисамбли изображений как двумерные проекции трехмерных сцеи, регистрируе- 
мых с помощью оптических систем конкретной конфигурации (расстояния и углы 
между камерами, паспортные данные и дисторсии объективов камер), конечно, яв- 
ляется существенным шагом в сторону имитационного моделирования. Однако 3a- 
MeTHM, что данный поход все же основан не на физическом, а на геометрическом 
моделировании, поскольку традиционно ограничивается учетом геометрии съемки 
и не предполагает анализа других физических факторов, влияющих на качество по- 
лучаемого изображения. Если понятие «яркостно-геометрическая модель» трактовать 
расширительно — как распределение скалярной или векторной характеристики в 
пространстве Е", m > 1, Torna текстурированные трехмерные поверхности (2,50) и 
объекты (30), которые рассматриваются в фотограмметрии, можно также счнтать раз- 
новндностью «иконическнх объектов». Впрочем, такие фотограмметрические техники 
как реконструкция трехмерных объектов по теням [46] следует все же отнести к 
методам нмитационного моделирования. 

Используемый B фотограмметрии математический аппарат целиком основаи на 
стереометрии, проективной геометрии и геометрической оптнке. Морфологическая 
интерпретация фотограмметрических моделей имеет следующий вид. Пусть дано дву- 
мерное изображение A(x,y) Е Q = Е?. Гипотетическим прообразом этого изображе- 
ния является трехмерный объект L(z,y, 2} € Л = ЕЗ. Однозначная операцня проекции 
трехмерного объекта на плоскость изображення играет в данном случае роль ба- 
зового оператора морфологической реконструкции изображения: 


A(z,y) = &(L(z2,y,2)). 
К сожалению, сопряженная процедура трехмерной морфологической сегментации 


L(z.y,z) = c(A(z.y)) 
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в общем случае (для одного изображения сцены) является неоднозначной. Поэтому 
фотограмметрический подход требует либо нспользовать некоторые дополннтельные 
априорные сведения о модели съемки или характере сиимаемых объектов, либо осу- 
ществлять трехмерную сегментацню на основе ансамбля (минимум — пары) стерео- 
изображений А(=,у): 


A(z,y) = 5([(т,у,2)), 
Их, у, 2) = &(А(х,у)). 


С учетом этого задача морфологической сегментации (трехмерной реконструкции) 
может быть поставлена в традиционной форме 


Фо(А(2,у)) = L(z,y,z) : G(A(z,y), Цт,у,2)) = 
= К(А(т,у),5( (5, 2))) - M(L(z,y,z)) — max(L € ЕЗ), 


то есть задача заключается в TOM, чтобы подобрать такой трехмерный прообраз L, 
стереореконструкция которого 5(Ё(г,у,2)) наилучшим образом соответствовала бы 
стереонаблюдению A(z, y). 

Далее этот подход можно развивать, объединяя его C рассмотренным выше струк- 
турным подходом. При этом трехмерная структурная модель объекта ЛЕ А, как 
правило, представляет собой структурный граф, вершинами которого являются 
фрагменты различных аналитических З)-поверхностей (плоскостей, цилиндров, KO- 
нусов, эллипсоидов и т. д.), лнбо границы между ними, которые, в свою очередь, 
представляют собой сегменты различных аналитических 3)-кривых (прямых, окруж- 
ностей и т. п.) Ребра структурного графа соответствуют геометрическим отношенням 
между элементами-вершинами (расстояние между элементами, относительное распо- 
ложение и т. д.) Задача оптимальной индексации трехмерного структурного графа 
на изображении нлн ансамбле стереоизображений также может быть представлена 
как типовая задача морфологического анализа даиных 


9e(A(z,y)) = А: Ф(А(а,у),А) = K(A(z.),8())- М(А) — max (A Е Л). 


Используемый в современной литературе по машинному зрению термин модельный 
подход высокого уровня предполагает решение именно этой задачи отождествления 
(привязки) трехмерной структурной модели объекта. 

Универсальность и практическая применимость морфологического подхода, 
Таким образом, мы убедились, что модельный подход, названный морфологическим, 
действительно позволяет некоторым единым унифицированным способом решать все 
основные задачи обработки и анализа данных. Это определяет его в определенном 
смысле особое положение по отношению к другим известным подходам к анализу 
данных. 

Легко заметить, что в каждой конкретной области обработки и анализа данных 
морфологнческий подход не является ни единственно возможным, ни наиболее эффек- 
тнвным (по крайней мере, это трудно доказать), ни наиболее объемлющим (в смысле 
включения всех остальных методов). Хорошо известны эффективные операции филь- 
трации (трансформации) данных, не опирающиеся в явном виде ни на какие форма- 
лнзованные модели фильтруемых данных. Такие фильтры лнбо в принципе не могут 
быть описаны в морфологнческих термннах, либо такое описание будет избыточным н 
искусственным. Аналогично, с точки зрения теории распознавания образов оптималь- 
ный морфологнческнй классификатор является лншь одннм из возможных распозна- 
ющих алгорнтмов. Однако, что также легко заметить, фнльтры, не опирающиеся на 
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модели данных, в общем случае бесполезны при решении задач распознавания образов 
и обнаруження объектов. Равно как и классификаторы, не опирающиеся в явном внде 
на модели данных, оказываются бесполезны в задачах обработки данных. Следова- 
тельно, сформулированный выше морфологический подход, ни в коей мере не являясь 
наиболее общим (то есть объемлющим все остальные) подходом к анализу данных. 
является, судя по всему, единственным универсальным, то есть функционально пол- 
ным подходом, обеспечивающим возможность единообразного решения всех задач 
обработки и анализа данных, возникающих в реальных техннческих приложениях. 

Практическое значение подобной универсальности морфологнческого подхода свя- 
зано с тем, что, единожды нсследовав математический вид и свойства моделей данных, 
присущих некоторому тнпу данных в некоторой предметной области, мы можем далее 
автоматически (формально) конструировать любые необходимые нам алгорнтмы обра- 
ботки или аналнза данных этого типа. Прн этом полученные процедуры обработкн и 
анализа данных будут заведомо обоснованными (оптимальными) в некотором заранее 
известном смысле, а их свойства будут также заранее известными нли, по крайней 
мере, в достаточной степени ожидаемыми. Кроме того, устанавливая определенный 
изоморфизм моделей и операторов, используемых в различных группах методов ана- 
лиза изображений, данный подход обеспечивает возможность легко распространить 
полезные свойства и прнемы одних известных методов на другие. 

С учетом этого описанный морфологический подход может рассматриваться в Ka- 
честве единого формализма, объединяющего большинство ранее разработанных эф- 
фективных и обоснованных подходов к анализу изображений. Более того, поскольку. 
как было показано выше, конкретный выбор IATH основных элементов морфологи- 
ческой схемы {9,Л,5,К,М} из набора вариантов, кратко описанных в предыдущих 
разделах, полностью определяет каждую конкретную частную критериальную морфо- 
логию 2(9), следовательно, можно говорить о соответствующей пятимерной система- 
тической таблице методов анализа изображений. В силу пятимерности графическое 
изображение этой таблицы не может быть здесь приведено, но с формальной точки 
зрения ее достаточно легко представить. Часть клеток такой таблицы, естественно, 
заполнена уже известными методами, часть — еще нет. Соответственно, используя 
эту таблицу, можно регулярным способом исследовать н решать конкретные практи- 
ческие задачи мащинного зрения, и в то же время формально конструировать новые 
методы морфологического апализа изображений (отыскивать н заполнять «пустые 
клетки» систематической таблицы), после чего находить способы их практического 
применения в реальных задачах. 

При решенин практических задач данный подход приводит к стандартной проце- 
дуре, включающей рассмотрение таких элементов, как 

1) модель объекта — яркостно-геометрическое (морфологическое) описание исход- 
ного объекта (исходной сцены); 

2) модель регистрации — регулярные преобразования, отображающие ндеальную 
модель объекта (сцены) в ндеальное нзображенне; 

3) модель искажений — случайные преобразования, отображающне идеальное 
изображенне в реальное изображение; 

4) модель измереннй — преобразования, отображающие реальное изображенне на 
множество измерений; 

5) целевой критерий анализа изображения: 

6) критерий вычислительной реализуемости — набор ограннчений на вычислитель- 
ные ресурсы. 

При этом требуется построить алгоритм, который в рамках заданной модели обес- 
печивает оптимизацию целевого критерия прн условии вычислительной реализу- 
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емости. Конкретный вид каждого элемента данной схемы, естественно, зависит от 
особенностей каждой конкретной задачи. 

Регулярному конструированию содержательных методов морфологического ана- 
лиза изображений посвящено значительное количество собственных научных работ 
авторов этой книги '64]-[67], [72], [77], [81] - [83]. При этом в силу практической и me- 
тодической важности особое внимание уделялось, прежде всего, задачам построения 
морфологических проекторов. 

Для тех, кто, возможно, заинтересуется областью современного морфологическо- 
го анализа, далее в качестве матернала для самостоятельного изучения приводится 
краткая сводка полученных в этом направлении основных результатов. 


6.3.4. *Морфологические разложения и их нрименение. В работе [82] был 
предложен формализм проективных морфологических разложений, развивающий 
работы Ж. Серра ло описанию морфологических операторов иа основе теории решеток 
[347;. Суть данного подхода заключается в следующем. 

Пусть имеется два сорта элементов: скаляры и образы. На множестве скаляров V 
определены две операции — умножение (e) и объединение (V). Умножение опреде- 
ляет на множестве V группу с |, объединение — полугруппу с 0. Образы принимают 
значения на множестве {), ка котором также определена операция объединения (V), 
задающая на Я полугруппу с «нулевым образом» Ø, Кроме этого. на множестве об- 
pasos f) определена норма џ(А) = ||A|| : 9 — R, ||21| = 0. Пусть также определена 
операция умножения образа на скаляр (®). Введем операцию проекции образа на 
образ, обладающую следующими свойствами: 


Рг(А, B) є 9; РКА, В) = Pr(Pr(A, B), В); 
Pr(A,A)- A; Рг(@,А) = ©; РГ(А,2) = 0; (6.3.1) 
Pr(ae А.В) ZaePr(A,B; Уаз 0:Рг(А,а• B) =РГ(А, В); 


rae a E У; А, В, СЕЙ. 
Множество собственных (стабильных) элементов проектора 


M = (АЕЙ:РКА, В) = A) 


называется модедьным множеством или моделью образа В. Будем говорить, что 
модель М; по отношению к Mz является более общей (менее сложной), a Мз no 
отношению к M, является менее общей (более сложной), если М С M, (рис. 6.3.5). 


М3 = М№ СМ! Морфология Пытьева 


Морфология Серра 
TET > Ө 


Рис. 6.3.5. Идея морфологического сравнения форм по сложности. Пример упорядоченных no слож- 
ностн классов образов в морфологии Пытьева и в морфологии Серра. Символ «>» обозначает отио- 
цение «ие проще по форме» 
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Далее, назовем линейным проектором оператор (6.3.1) следующего вила: 
Рг(А, В) = r(A, B) e В, 
где r(A, B) — коэффициент линейной связи образа А c образом В co свойствами 


r(A, А) = 1; r(2, A) = 0; r(ae A,B) = a er(A, B); 


Ма 20: (А,ае B) = 421 A ВЕЙ, r(A B), a€ V. 
а 


Функция (А,В): $$ x 9 — V задает здесь систему парных отношений структурно- 
го сходства образов, отражающую семантические свойства предметной области. Это 
позволяет, следуя методике IO. П. Пытьева, ввести нормированный коэффициент au- 
нейной морфологической корреляции: 


| Рг(А,В)|| 
ПАП" 
0< Км(А, В); Км(А,А) = 1; Км(А,В) 30€ Pr(A B) = Ø. 


Зададим теперь множество образов В = {В\,..., Bn} С f). Операции объедииения H 
умножения на скаляр образуют над ним замкнутое линейное подпространство В С 0, 
причем 


Км(А,В) = (6.3.2) 


УАЕВ:А=У, = 1... пакВь, 


где а = (21,...„а) — вектор весов образующих. Если образы из В являются линейно 
независимыми, то множество В можно назвать базисом структурного описания, его 
элементы — структурными примитивами, n — размерностью базиса. Определим 
проекцию образа на подпространство: 


Pr(4,B) ЕВ; РКА, В) = РКРКА,В), В); (6.3.3) 


Pr(0,B) = 29; Pr(aeA,B) = a o РКА, В), 


aE Ф; А,2 Є 0); ВС 0. Пусть существует такой базис примитивов E, что проекция 
на замыкание E удовлетворяет следующему условию разложимости: 


Рг(А, E) = Vk-i,..,APr(A, Ёк) = Vai, n r( A, Ёк) ® Ек, (6.3.4) 


т. е. проекция образа на базис есть объединение линейных проекций на его элемен- 
ты. Тогда можно определить однозначную операцию морфологического разложения 
образа по базису 

decgA = a(A,E) : 0 > Ф". 


Алгебраическую систему {Ф, 0), e, v, ц, Рг, Е}, для которой справедливо условие 
(6.3.4), будем далее называть проективной морфологией на ©. Базис E является 
злесь базисом морфологического разложения. Базис Е будем называть полным на 
$, если 

УАЕЯ:РКА,Е) = А БЕ = О. 


В работе показано, что пространство векторов разложений Ө = 4", в свою очередь, 
также является проективным пространством, в котором может быть задана операция 
проекции вектора разложения на вектор разложения 


Рг(а, b) = r(a, b) eb 
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такая, что для нее выполняется условие соответствия 

7А, В,СЕЕ:С=РКА,В) =г(А, В)» B : a = 4есв(А), b = decg(B), с = decg(C). 

с = Рг(а,Ъ) = r(a,b) eb; r(A, В) = r(a, b), 
т.е. линейная корреляция векторов разложений оказывается равна линейной кор- 
реляции исходных образов. Отсюда следует, что для оценки сходства двух образов 
Д и В может быть использован нормированный коэффициент линейной корреляции 
разложений 
'[Pr(a, Б) || 
lal ° 
где а = dec(A), b = dec(B) Е ©, co свойствами 
0€ Км(а,ь); Км(а,а) =1; Км(а,Ъ) =0 = РКА, В) = 2. 


Таким образом, можно утверждать, что векторы разложений из © адекватно описыва- 
ют структурные отношения образов из ©, что позволяет обосиованно анализировать 
образы данного типа, опираясь на их признаковое описание в виде морфологических 
разложений. 

Необходимо отметить, что в виде комбинации линейных проекторов могут быть 
представлены не только те операторы, которые традиционно считаются в обработке 
изображений линейными (фильтры базе фурье и вейвлет-преобразований, пытьевские 
морфологические проекторы), но также, например, и нелинейные операторы бинарной 
морфологии Серра. Для этого лишь необходимо соответствующим образом определить 
способ вычисления коэффициента линейной связи (рис, 6.3.6). 


Км(а,Ъ) = 


Рқ(А,В)=2 Pr(A,B)-B 


1, если BCA 
0, ecan BZA 


Рис. 6.3.6. Принцип представления морфологических операторов Серра B виде линейных проекторов 


Поскольку в общем случае оператор, сконструированный путем объединения про- 
екций согласно выражению (6.3.4), не всегда является проектором в смысле условий 
(6.3.3), то для того чтобы гарантировать их выполнение, необходимо наложить допол- 
нительные условия либо на операцию объединения, либо на вид оператора проекции, 
либо на способ формирования системы примитивов. Соответственно, будут определе- 
ны различные типы морфологических разложений с различными свойствами. 

Монотонные разложения. Пусть множество f) представляет собой решетку, т. e. 
частично упорядоченное множество, в котором для любых двух элементов A, В є f) 
объединение А V В является их точной верхней границей, а также можно указать HX 
точную нижнюю границу А ^ В. Это позволяет определить для элементов решетки 
П отношение включения 


УЛ, ВЕЯ: АСВФАУВаВ, ||А|1< |18. 


Добавнм дополнительные требования к проектору: 
(а) сохранения включения: 


УА, ВСЕЙ, ACB«&Pr(AC)C Pr(B,C). (6.3.5) 
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(6) монотонности: 
УА,ВЕЯ, Pr(B,A) C Pr(A,A) = А. (6.3.6) 


B работе [64] показано, что условия (6.3.5)- (6.3.6) являются достаточными для 
выполнения условия (6.3.4), то есть в случае, когда пространство образов является 
алгебраической решеткой, а оператор проекции монотонен и сохраняет включе- 
ние, любой базис примитивов является базисом иорфологического разложения. 

Ортогональные разложения. Назовем ортогональными любые два образа А, B є 
Q такие, что 

ALB € {РКА,В) = 2; Pr(B,A) = Ø}. 


Ортогональным базисом будет являться такой базис E, в котором 
VE,E,cE, kgzi: Е, LE, (6.3.7) 


Наложим теперь Ha операцию проектирования дополнительное требование coxpa- 
нения объединения: 


vA,B,C€Q, AV B 6 Pr(Av B,C) =РКА,С) v Pr(B,C). (6.3.8) 


В работе [64] также показано, что условия (6.3.7)-(6.3.8) также являются доста- 
точными для выполнения условия (6.3.4), то есть для проектора, сохраняющего 
объединение, любой ортогональный базис примитивов является базисом морфо- 
логического разложения. 

Проективные морфологические разложения изображений. 
Для изображений морфологический проектор (6.3.4) задается выражением 


РКА(р),Е(р.9)) = Voeg A(a) * Ф(р,9), (6.3.9) 


где (р = (z,y)) — вектор пиксельных коордннат в исходном пространстве изображе- 
ния; А(р) — анализируемое изображение, заданное как двумерная скалярная функ- 
ция яркости; 4 — вектор параметров разложення; E(p.q) = {Ф(р,9): pe Р,чЕФ} — 
набор образующих (примитивов) структурного разложення, также заданиых как па- 
раметризованные двумерные функции; А(9) — образ изображения в пространстве na- 
раметров; 'V' e (У, 'МАХ’, 'IT','MIN') — коммутативная и ассоциативиая операция no- 
элементного объединения. В работе, в частности, показано, что в унифицированной 
форме (6.3.9) могут быть описаны такие популярные процедуры анализа изображений, 
как операторы открытия и закрытия Серра, проекторы на кусочно-постоянную 
форму Пытьева, частотные и пространственно-частотные полосовые фильтры на ос- 
нове преобразования Фурье и вейвлет-преобразований и ряд других. 
Коэффициент морфологической корреляции изображений имеет вид 


lIPrCA(), BEII 
EON 


Рассмотрим способы использования проективных морфологических разложений H306- 
ражения. 

Морфологическая фильтрация изображений. Пусть базис 
Е(р, q) является полным на Я. Назовем морфологическим преобразованием изоб- 
ражения любое преобразование f такое, что 


ЛА(р)) = Veeg F(A(q). a) ® Ф(р, q), 


Км(А(р), В(р)) = 
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rne F(A(q), 9) Е Y — весовая функция данного преобразования в пространстве пара- 
метров. Еслн оператор f также обладает свойством проектора: 


f(A(p)) = f(A(p)), 


то такое преобразованне можно назвать морфологическим фильтром. Еслн весовая 
функция не зависит от изображения, то 


J(A(p)) = Voeg F(q) ® A(q) • (р, 9), 


где F(q) € {0,1} описывает область пропускания фнльтра. Таким образом, возникает 
унифицированная двухэтапная схема фильтрации: 

1. деконструкция (анализ). Проектирование изображения на образующие полного 
морфологического разложення; 

2. частичная реконструкция (синтез). Объедннение проекций на те элементы 
разложения, которые находятся в областн пропускания фильтра. 

Морфологические спектры. Пусть вектор параметров разложення q € 
Q состоит нз двух частей: 4 = (91, 92), где 91 Є 1 — подвектор параметров- 
характеристик, 4; Е Qa — подвектор параметров локализации, Q = Qi х Qa. Ин- 
тегральным спектром порядка п образа А(р) по характернстикам из Qı будем на- 
зывать выражение следующего внда: 


Ѕр(А(р), 91) = ( У 14(9,,9)1"),/". (6.3.10) 
9292 

Дифференциальный спектр определяется на основе интегрального спектра (6.3.10) 
как его пронзводная. Если максимумы в спектре полезного сигнала не имеют анало- 
гов в спектре фоно-шумового сигнала, это позволяет адаптивно сформировать область 
пропускания морфологических фильтров. 

Морфологическое сравнение изображений. Обобщая методику 
Ю. П. Пытьева, рассмотрим задачу сравнения образа с моделью. Пусть модель об- 
раза задана в виде разложеиня (6.3.4). Назовем индикатором структурной связи 
характеристическую функцию вида 


0, если = 0; 
x(z) = 
1, в противном случае. 


Определнм характеристический базис образа В как 
EX(B) = (x(bx) е Ek, Е, € E), 


где E — некоторый полный базис морфологического разложения. Тогда морфологи- 
ческую проекцию образа А на модель [В] можно определить как 


Pr(A,(B]) = Vkei,..,5 0 ® X(bx) € Ex = РКА, Ex (B)). 
Аналогичная операция проектнровання разложений будет иметь внд 
Pr(a,[b]) = Ри, дл), (6...) = (11 € X1)... a © x(bn)), 


что позволяет определить меру сходства образа с моделью — морфологический ко- 
зффициент структурной корреляции: 


ПІРтв,[0)|| 


Кстр(А, В) = Пај] , 
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где A, B € f; a = dec(A), b = dec(B) є Ө, со стандартными свойствами 


0<К.р(4,6)<1; К.„(А,А) = 1; Кер(А, В) = 0€ Pr(A,[B]) = е. 


Заметим, что отношение структурного сходства, задаваемое К..р(А, В), асим- 
метрично, н это позволяет разлнчать «более простые» и «более сложные» структуры 
(образы, модели). Если 

Кер(А,В) = 1,К.(В,А) « 1, 


значит, «А сложнее B», и, соответственио, «В проще А». 
Для решеток морфологический коэффициент структурной корреляцни можно 
определнть и непосредственно в пространстве изображений 


llert^, tB. 
АІ 


Аналогичным образом решается задача сравнення нзображений, инвариантного к за- 
данной группе яркостно-геометрических праобразований. 

Морфологические алгоритмы обнаружения объектов на изображениях. Пусть 
нмеется морфо-геометрическая модель объекта вида 


Кеь(А, В) = 


M (p.u) = Уо М(и,9) e e(p,q), 


где и — вектор параметров локализацин объекта M(p,tt); q Є Q — вектор парамет- 
ров разложення; M(tt,q) Е (0,1) — модель локализации объекта, которая описывает 
все допустимые соответствия между параметрами локализацни образа в целом н па- 
раметрами локализации составляющих его геометрических примитивов. Определнм 
проекцию нзображения на модель 


Pr(A(p), M (p,u)) = Усс M (u,a) e A(q) • ф(р,9). 


н соответствующий коэффнциент морфологической корреляции 


ПРг(А(р), М (p, 1] 
O 
Как видно, коэффициент корреляции при этом оказывается функцией параметра и, 


то есть представляет собой корреляционное поле Км(и), которое также может быть 
представлено и в пространстве параметров разложения 


Км(А(р), М(р,и)) = (6.3.11) 


1м, 9) ® А(а)|| 
laol 


При этом локальные максимумы корреляционного поля соответствуют параметрам 
наиболее достоверной локализации объекта. Соответственно возникают две возмож- 
ные стратегии анализа изображения. 

Анализ изображения «сверху вниз» (от гипотез к данным) осуществляется путем 
последовательного вычисления значений корраляционного поля Км (и) для каждого 
гипотетического значения вектора локализацни и согласно формуле (6.3.11). Данный 
способ можно назвать согласованной морфологической фильтрацией в области нзоб- 
ражения. 


Км(А(9), M(u,q)) = (6.3.12) 
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Анализ изображения «снизу вверх» (от данных К гнпотезам) осуществляется со- 
гласно формуле (6.3.12) путем обнаруження значнмых элементов разложения наблю- 
даемого образа (|А(4)| > 0) н нх голосования в пользу гнпотетических значеннй Na- 
раметров вектора и, определяемых выражением №М(и, 4) = 1. Данный способ можно 
назвать согласованной морфологической фильтрацией в области разложения, которая, 
в зависнмостн от типа разложения, может иметь смысл пространственной, частотной, 
пространственно-частотной области н т. п. Данный способ конструирования вычисли- 
тельно эффектнвных алгоритмов анализа изображений подробно рассмотрен в чет- 
вертой главе днссертационной работы, посвященной методам голосования и анализу 
свидетельств. 

Рассмотрнм также возможный метод автоматизированного конструнрования про- 
цедур обнаруження объектов, основанный на «генетнческом отборе» информатив- 
ных элементов [348], [349]. Пусть дан набор эталонных изображений А = { А; (р) :2 = 
=1,....П} € Я вместе с обучающей ннформацией об истинных параметрах локализа- 
ции объектов на эталонных нзображеннях I(A) = {А; (и) є {0,1}, иє0:і = 1,...,п}, 
где U — пространство параметров локализацин; А;(и) — списки параметров локали- 
зацин для объектов А; (р) Е А. Требуется сформировать модель М(р, и) вида 


М(р,и) = Мк=1....пМь(и, qi) ® ox(Lc p. к), 
где п — колнчество значимых для модели яркостно-геометрическнх примнтнвов B 
наборе {фь(#+,р,Чк): А =1,...,п} C Q; ty — тнп К-го прнмнтнва; qg Є Q — геомет- 
рическне параметры k-ro примитнва; M(u,q) = Я U Мея, 9»). M(uq) € (0,1) — 
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модель локализации объекта. 

Пусть данной модели соответствует корреляционное поле Км (и) (12) и пороговое 
правило принятня решення об обнаруженин объекта D(A, М, и) Е (0,1). Определнм 
функцнонал качества обнаруження F(M,A), штрафующнй несовпадение множества 
результатов D(M,A) = (D(A(p), M (p,u),u) Е {0,1} u € U : i 1,...,n) и обучающей 
информации ЦА). Функционал качества должен быть составлен так, чтобы учиты- 
вать ошибки первого н второго рода, а также штрафовать аномальные и нормальные 
ошибкн («необнаружение объекта» H «неточную локализацию»). 

Необходимо решить следующую задачу условной оптимизацин: 


Е(М,А) ^ min(M :T(M) < Tmax; V(M) < Vmax). (6.3.13) 


rae Г(М,А) = F(D(M,A), I(A)) — функционал качества обнаружения; T(M) — spe- 
мя вычисления Км (и), V(M) — используемый объем памяти. Для решения данной 
задачи предложена и реализована следующая схема генетического отбора: 

1) Каждому гену соответствует один из возможных структурных примитивов, ха- 
рактернзуемый набором {Мь(ч, qi), tk 9}. 

2) Хромосома — последовательность генов длины п. Каждая хромосома соответ- 
ствует одной из возможных моделей M(p, ut). 

3) Функция качества для хромосомы вычнсляется согласно критерию (6.3.13) c 
учетом аппаратно-программной архитектуры вычнслителя. 

4) Операция скрещивания позволяет конструнровать новые моделн и процедуры 
на базе уже построенных. Новая процедура формируется путем перегруппировки со- 
ставных частей существующих решений. 

5) Операция мутации позволяет изменить параметры локалнзации {Мь (и, dr), ак} 
для выбранного гена. 

6) Генетический отбор осуществляется путем итеративного «размножения», те- 
стировання и селекции в каждом поколении хромосом с наилучшим значением функ- 
ции качества. На каждом этапе случайным образом осуществляются мутации пара- 
метров и скрещивание моделей. 
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В отборе побеждает процедура с лучшим значением функции качества. Поскольку 
генетические алгоритмы не гарантируют нахождения оптимального решения, резуль- 
тат отбора понимается как близкая к оптимальной, но необязательно оптимальная 
процедура обнаружения. 

Монотониые морфологические фильтры. Морфологии на базе преобразова- 
ния Хафа и его модификаций. В [345] описана следующая схема построения мо- 
нотонной морфологии на базе пары произвольных операторов (X,Y) для бинарного 
изображения А. 

1) На основе Х построить оператор сжатия Ех(А) = Х(А) ПА. 

2) На основе У построить оператор открытия Оху( А) = Y(Ex(A)) n A. 

3) Пост тронть операторы расширения Dx(A) = (Ex(AC))€ и ны Сху(А) = 

= (Oxv(A*))€, где (А) обозначает дополнение изображения. 
Поскольку построенные по данной схеме операторы не обязательно являются морфо- 
логическими фильтрами Серра (т.е. алгебраическими проекторами, сохраняющими 
включение), в каждом конкретном случае эти свойства операторов Оху(А) и Сху(А} 
необходимо дополннтельно доказывать. В связи с этим предложен также следующий 
способ конструирования проектнвных монотонных морфологических операторов: 


Вх (4) = UJ 4^ PYA) = Y, Ву (т), 
Оху(А) = Dv(Ex(4)) Оху(А) = adea x 
1 € Вх (т), Вх (т,А) = 04 Bx(s. D), 


qt € By(1), Ву(т,А) = D, 5v (6D) 


(6.3.14) 


(6.3.15) 


где обозначение В(т,А) подразумевает использование в различных точках H30Ópa- 
жения T различных структурирующих элементов (структурирующих функций), B 
общем случае зависящих от А. В |345] доказано, что условия (6.3.15) являются ĝo- 
статочными условиями проективности получаемых по данной схеме операторов. 
Обоснована также частная схема построения проективных монотонных морфологий 
(6.3.14), определяемая условием 
Bx(x) € By(x) € Objeect(«), 

где Object(x) — связная область изображения А, содержащая точку т. 

Прадложена также схема построения монотонных морфологий на базе преобра- 
зования Хафа и ero модификаций (Н-морфологий). 

Морфологнческий фнльтр Н-открытие вычисляется как объединение проекций 
изображения А(р) на отдельные прямые линии: 


Pr(A(p),t) = MAX(A(q,t) e Pr(A(p), o(p.a))) = MAX(A(q.t) è A(p) •ф(р,а)), 
q4cQ qcQ 


где р = (х,у); а = (p,0) — параметры нормальной параметризации прямой; Q — npo- 
странство параметров; Q(p,q) Є (0,1) — характеристическая функция прямой c na- 
раметрами 4;А(а,{) є (0,1) — аккумулятор преобразования Хафа, бинаризованный 
по порогу t. Н-открытие можно представить и в форме (6.3.14). Кроме того, H- 
морфология на базе Рг(А(р),{) является параметрической, причем параметр t опре- 
деляет морфологическую сложность соответствующей модели M(t). Аналогичным 
образом может быть построена и проективная морфология на базе обобщенного пре- 
образования Хафа (СНТ). 

Прнмер работы описанного морфологического оператора открытия на базе преоб- 
разования Хафа (Н-открытия) показан на рис. 6.3.7. 
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Рис, 6.3.7. Пример морфологического Н-открытия: а — исходное бинариое изображение; б — акку- 
мулятор пространства Хафг; в — результат H -открытня. На исходном контуриом препарате выделены 
глобальные прямолннейные структуры 


Рис. 6.3.8. Пример морфологического ВНТ-открытня: а — исходное полутоновое изображение; 6 — 
исходный бинарный коитурный препарат; в — результат ЕНТ-открытия. На исходном контурном 
препарате выделены локальные прямолинейные структуры 


e 
л 


{ 
\: 


Рис. 6.3.9. Пример морфологической ВНТ-фильтрации с различными параметрамн размера окна: 
а — маленький размер окиа фильтрации; 6 — средний размер окна; в — большой размер окна. 
Выделены липеаменты различных размеров 


Проективная морфология на базе рекуррентного преобразования Хафа в сколь- 
зящем окне (Recurrent Hough Transform, RHT), определяет оператор ВНТ-открытия, 
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также описываемый вышеприведенной формулой, где q = (p,8); ф(р,а) — структу- 
рирующий элемент в виде прямолинейного отрезка фиксированного размера, р — 
положение центра структурирующего элемента, Ө — угол поворота отрезка; A(q,t) — 
содержимое бинаризованного аккумулятора преобразования Хафа в скользящем окне. 

Последовательные стадии морфологического ЁНТ-открытия демонстрирует 
рис. 6.3.8. Выделены локальные прямолинейные структуры, показана КНТ-фильтра- 
ция с различными параметрами размера окна. 

Морфологические операторы сегментации и сжатия данных. Введем понятие 
морфологического дескриптора 


d(A, E) = (n,d(A, Ey).. ФА, Е,)), 


где E-(E,..,E4) — базис морфологического разложения; n = dim(E) — размер- 
ность базиса Е, называемая также размерностью дескриптора; d(A, Е,) — дескрип- 
тор элемента разложения E;. Объемом дескриптора назовем v(d) — количество 
памятн (бит), необходимое для хранения данного дескриптора 4. Как правило, объем 
дескриптора пропорционален размерности базиса. 

Пусть дан некоторый полный базис разложения Х размерности п. Тогда для лю- 
бого образа A € f? его дескриптор d( A, X) будем называть базовым полным Oeckpun- 
тором. Любой подбазис У = (Yy,..., Ys) : Y € X, dim(Y) < dim(X) соответственно 
определяет субдескриптор d(A,Y). Определим критерий качества сегментации в 
виде функционала 


Ф(А, Y) = J(A,Pr(A, Y)) + xv(d(A, Y)) > min(Y : Y C X), 


где J — функционал качества проекции; х — настроечный параметр, определяю- 
щий компромисс между требованиями минимизации объема дескриптора 'v(d(A, Y)) 
и искажений J, виосимых в сегментированное изображение Pr(A, Y) по сравнению 
с исходным образом А. Лроцедура оптимальной сегментации S определяет 


У = 5(А,Х): ҮСХ, Ф(А,У) min(Y). 


При этом процедура сегментации 5 может быть представлена в виде матрицы nepe- 
хода к новому базису S(A) размерности m x п: 


Y 2 S(A) x X, 


где n н m — размерности базиса X и подбазиса Y соответственио. 

В работе [66] предложена схема конструирования неискажающих морфологических 
операторов сегментации без потери информации на основе эквивалентных преобра- 
зований базисов путем исключения примитивов с нулевыми коэффициентами разло- 
жения и группировки примитивов с одинаковыми коэффициентами разложения. 

Для описанных эквивалентных преобразований матрица перехода 5(А) состоит 
из нулей и единиц. С формальной точки зрения, последовательно применяя экви- 
валентные преобразования, можно исключить все элемеиты разложения с нулевыми 
коэффициентами, сгруппировать все примитивы с одинаковыми весами и, таким об- 
разом, построить неискажающий проектор с минимальным объемом (минимальной 
размерностью) дескриптора, Однако не все элементы с одинаковыми весами допусти- 
мо и целесообразно объединять. В каждой конкретной морфологни существуют свои 
ограничения на допустимое объединение образующих. Эти ограничения можно опи- 
сать как предикат правил перехода p(X — Y) = p(S), значення которого не зависят 
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от сегментируемого образа А и определяются априори, исходя из семантики данного 
конкретного разложения. Рассмотрим несколько примеров. 

Пример 1. Разложения по системам ортогональных функций (Фурье, вейвлет). 
Здесь условием допустимого объединения образующих является то, что получаемые 
образующие нового базиса также должны быть ортогональны. Поскольку S(A) cocro- 
ит H3 Он 1, соответствующее правило перехода гласит, что в каждом столбце матрицы 
перехода может быть только одна единица. $ 

Пример 2. Пытьевские «формы». В качестве базиса исходного полного разло- 
жения может использоваться тривиальное пиксельное разбиение 


Ит,у) E Уаз), 


где (i 1,5, у) = {1:2 =i, у=; 0:294, у ј) — индикаторная функция пиксе- 
ла; (х,у) — положение пиксела; ai; = f(i,j) — значение цифрового нзображения в 
точке (7,7). Соответствующее формальное правило перехода для ортогональных раз- 
ложений определено выше и предписывает, что в каждом столбце матрицы перехода 
должна быть ровко одна единица. Однако помимо формальных ограничений в данной 
задаче важны и семантические, а именно, получающиеся B результате CAHHRIIHR NHK- 
селов области должны быть связными. С учетом этого две связные области должны 
считаться разными примитивами, даже если на данном изображении они заполнены 
пикселами одинаковой интенсивности. В качестве обоснования такого подхода можно 
рассмотреть значение соответствующего объема дескриптора, описывающего связные 
области. Наиболее экономным способом описания бинарных областей нвляется опи- 
санне в виде контуров (спнсков контурных точек). Объем контурного дескрнптора 
пропорционален не площади области, а ее периметру. Общий периметр двух областей 
меньше суммы их периметров на длину общей граннцы. Таким образом, целесообраз- 
но объединять все смежные областн равной интенсивности в одну связную область. 
Если же две области равной интенсивности не имеют общей границы, то при их 
объединенин суммарный периметр не уменьшится, следовательно, такое объединение 
нецелесообразно. Таким образом, оказывается, что интуитивно введенное Пытьевым 
понятие «формы» как множества связных областей равной яркости есть на са- 
мом деле регулярное решенне задачи оптимальной морфологической сегментации без 
потерь (рис. 6.3.10). $ 

Пример 3. Бинарная ММ Серра. В качестве исходного базиса полного раз- 
ложення рассмотрим множество структурирующих элементов одинаковой формы 
B(z,y,r) всех возможных положений (z,y) Е В? н размеров гє |0, +оо). Рассмот- 
рим задачу построения неискажающего дескриптора минимального объема Ув на 
базе исходного полного разложения Хв. С формальной точкн зрения все элементы 
разложения с ненулевыми коэффициентамн можно было бы объединить в единый 
примитив, поскольку значения этих коэффициентов одинаковы и равны единице. Од- 
нако, как и в примере 2, не все объединения дают выигрыш в объеме дескриптора. В 
данном случае выигрыш появляется, когда большие примитивы разложения погло- 
щают меньшие, которые целиком в них входят. В самом деле, объем дескриптора 
(записи типа (5,3,г)) будет одинаков для элемента B(z, y,r) любого масштаба. В тоже 
время, любой элемент B(z,y, К) может быть представлен в виде 


B(z,y, R) = Uti jr) {B jr) : B(43,rT) € B(z,y, Rr R), 


и поскольку монотонные проекторы сохраняют включение, проекция любого обра- 
за А на множество образующих ( D(5,j,r) : B(i, j.r) С B(z,y, В), т < R} всегда равна 
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Pr(A, В(х,у, R)), если Pr(A, B(z, y, R)) # Ø. Формальное правило перехода в данном 
случае имеет следующий вид: единицы в матрице перехода 3(А} могут стоять на ne- 
ресечении строкн, соответствующей В(х.у, R), и столбца, соответствующего D(i, j,r), 
если D(i,j,r) С B(z,y, В), г < Е. В частности, для дисковых структурирующих эле- 
ментов D(z,y.r) решение задачи оптимальной сегментации на базе ММ Серра также 
автоматически порождает описаиную выше процедуру скелетизации, или построе- 
ния морфологического остова двумерных бинарных образов (рис. 6.3.10). © 


Морфология Пытьева «форма» Пытьева 


Полное пихсельиое разбиение Минимальное число областей 


Морфология Серра морфологический скелет 


Полное дисковое представление Минимальное чнст дисков 


Рис. 6.3.10. Иллюстралия идеи обосиования морфологии Пытьева и бинарной непрерывной морфо: 
логии как решений задачн оптимальной морфологической сегментации без потерь для различиых 
способов описания изображення 


Предложена также схема конструирования оптимальных морфологических опе- 
раторов сегментации с потерей информации. Доказана проективность получаемых 
операторов сегментации для двух основных классов операторов морфологической сег- 
ментации: проекторов минимального расстояния (минимальной нормы отклонения) 
и монотонных проекторов (в более общем виде эти утверждения приводятся ниже 
для общего случая критериальных проективных операторов). 

Процедуры проективной морфологической сегментации с потерей информации Mo- 
гут быть реализованы, в частности, методами динамического программирования. 

Заметим, что основным ограничением рассмотренных в данном разделе методов и 
подходов является то, что рассматриваемый в рамках проективной морфологии раз- 
ложений класс структурных моделей с однородными связями позволяет задавать 
лишь состав входящих в модель элементов и связь между образующими и образом в 
целом, но не учитывает связи образующих элементов между собой. Это ограничение 
является принципиальным, так как модели более общего вида, описываемые произ- 
вольными гиперграфами, не могут быть однозначно охарактеризованы регулярными 
массивами или векторами признаков. Для работы с такими моделями необходимо ис- 
пользовать обобщенный морфологический формализм, рассматриваемый в следующем 
разделе. 


6.3.5. *Критериальная проективная морфология. Пусть имеется множество 
образов X), на котором определена операция сложения (+), задающая на ® группу 
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Если x(A, В) = 1, критерий (6.3.18) принимает упрощенный вид 
Ф(А, В) = КА, B) + aQ(B). 


В [73] доказано, что с увеличением значения структурирующего параметра о в Bbl- 
ражении (6.3.18) сложность модели, которую определяет проектор (6.3.19), также 
монотонно возрастает. Таким образом, структурирующий параметр х также можно 
назвать параметром морфологической сложности модели. Для любого конкретного 
образа А однозначно определяется коэффициент максимальной морфологической 
сложности по отношению к {J,X, Q}: 


пох (А) = тах{х 2 0: А =РКА, Л, х, %0)}. 


Более того, методика построения морфологических спектров, ранее предложениая Ма- 
рагосом в рамках морфологии Серра, может быть обобщена на случай любых проек- 
тивных морфологических систем для вычисления хритериальных морфологических 
спектров по параметру морфологической сложности: 


Sp(A,a) = —0J (A, Pr(A.J, «, Q))/3«. 


Практическая схема вычисления таких морфологических спектров является двухэтап- 
ной и состоит в первоначальном построении распределения значений морфологиче- 
ского критерия по некоторому базовому переменному параметру (например, масштабу 
структурирующего элемента, числу мод гистограммы и T. п.) с последующим пересче- 
том этого распределения к соответствующим значениям параметра морфологической 
сложности (рис. 6.3.11). 


Sp(4,a) ~ ОП Pr(A A0) 1/20 014 • (о) 1/0 
Ф(А.В) = А.В) *a/Q(B) 


монотонное убывание сложности монотокное убывание сложности 


Рис. 6.3.11. Построение морфологического спектра по параметру сложности 


Доказаны следующие достаточные условия построения проективных операто- 
ров на базе критериев типа (6.3.18). 
Пусть критерий соответствия Ј(А, В) обладает свойствами расстояния: 


МА, В,СЕЯ: ЦА, В) 2 0, ХА, А) =0, 


J(A B) = ДВ, A), ЦА, В) + J(B,C) > J(AC). бза 
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Тогда монотонные по ОДЗ критерии минимального расстояния (6.3.17, 6.3.19, 
6.3.20) определяют морфологический проектор (6.3.19). 
Определим критерий максимума обобщенной нормы проекции вида 


D(A, В) = -J(B) + ХА, В) + «О(В), (6.3.21) 
VAEN, B e V(A,O): У(В,Ф) c V(A,9), (6.3.22) 
УАЄ0,ВєУ(А,Ф): ДА) > J(B). (6.3.23) 


Тогда критерии максимума обобщенной нормы (6.3.21—6.3.23) определяют морфологи: 
ческий проектор (6.3.19). Также доказано, что любой образ, полученный в результате 
применения проектора минимума нормы разности, при последующем применении к 
нему проектора максимума обобщенной нормы проекции с теми же параметрами бо- 
лее ие изменяется. 

Назовем эффективным подмножеством области допустимых значений У(А,Ф) 
такое множество О(А,Ф) C У(А,Ф), что 


V Be V(A,9),,BgU(A,0): ЗС Е О(А,Ф),Ф(А,С) <Ф(А,В). 
Определим условие квазимонотонности ОДЗ: 
VAEN, УВЕУ(А,Ф) : О(В,Ф) c У(А,Ф). (6.3.24) 


Доказано, что квазимонотонные по ОДЗ критерии максимума обобщенной нормы 
(6.3.21, 6.3.22, 6.3.24) определяют морфологический проектор (6.3.19). 

Также показано, что если критерий качества задани штрафным предикатом 
Q(B) € {0, +оо}, а критерий J(A, В) является выпуклой функцией соответствия 


VA,BeQ,As B = ЛА, А) < J(A, B), 


оператор (6.3.19) является проектором. 
Для обобщенных критернальных морфологий рекомендуется использовать моди- 
фицированный морфологический коэффициент корреляции 


см - A) 


K(A, Pr) = Ku( A.M) = exp ( ПРА, Moll 


(6.3.25) 


0< Км(А,М) < 1; Км(А,М) 19 A € M; РКА, М) = 06 Км(А,М) =0. 


Форма выражения (6.3.25) отличается от формы выражения (6.3.2), поскольку в об- 
щем случае равеиство нормы проекции норие исходного изображения уже не гаран- 
тирует совпадения проекции с изображением. 

Проективные морфологии на базе функционалов. В общем случае проектив- 
ные морфологии могут быть определны на базе моделей, описываемых структури- 
рующими функционалами, функциями и параметрами. Пусть определена задача 
оптимальной аппроксимации ансамбля функций f(x) (в простейшем случае — cka- 
лярной функции {(х)): 


L(x) : &(f(z), g(z), L(z)) ^ min(L(z)), 


где f(z) = (f(x)... Р (2) — аппроксимируемый набор функций порядка m > 0; 
g(x) = (91(2),...,9п(2)) — базис аппроксимации порядка п > 0; L(z) = (Li(z),..., 
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1„(х)) — ансамбль-решение; L(x) = L1(z) =... = La (x) — функция-решение; Ф({{2). 
g(r)L(r)) — комплексный критерий аппроксимации. Тогда оператор 


Pr(f(z). g(z)) = L(z), 


называется оператором морфологической проекции ансамблей функций, если 


Pr(Pr(f(z), g(z)), g(z)) = Pr(f(z), g(z)). 


B такой наиболее общей форме, можно описать все рассмотренные известные частные 
проективные морфологии, включая проективные морфологии на основе однородных 
морфологических разложений, морфологии на базе логических предикатов, морфоло- 
гии на базе отождествления фрагментов изображений и ряд других. 

В качестве эффективного метода вычисления морфологических проекторов общего 
вида на базе критериев-функционалов, не основанных Hà проективных разложениях 
и предикатах, может быть использован метод динамического программирования. 

Проективные морфологии на базе динамического программирования. 

Фильтрация и сегментация одномерных функций методом динамического про- 
граммирования. Рассмотрим известное решение задачи фильтрации/сегментации 3a- 
шумлениой одномерной функции методом динамического программирования. Пусть 
наблюдаемая дискретная функция f(x) определена на отрезке = Е (0,..., zx]; прини- 
мает значения на множестве | =0,...,№ — 1 и представляет собой комбинацию неиз- 
вестной исходной функции v(r), принадлежащей некоторому классу функций V, и 


случайного шума &; 
f(z) = (+) +& (6.3.26) 


Требуется найти такую функцию-решение L(x) € У, которая наилучшим образом опи- 
сывает наблюдения в смысле некоторого критерия соответствия J: 


L(z) : J( S(x), L(z)) > min( L). (6.3.27) 


Часто используется, например, критерий (6.3.28), оптимальный в случае, когда é, 
представляет собой гауссов белый шум: 


(а), L(2)) = У (2) - Цт))?. (6.3.28) 


При этом класс У также может быть задаи косвенио — иекоторым функционалом 
качества решения: 


Q(L(x)) — min(L). (6.3.29) 
Например, функционалом качества, штрафующим негладкость решения: 
Q((2)) = Уа). (6.3.30) 
г 


Таким образом, в простейшем случае задача фильтрации/сегмеитации зашумлеиной 
функции (6.3.26) представляет собой задачу поиска экстремума комбинированного 
функционала 


Ф(/(2), L(z)) = J(f(z), L(z)) + «Q(L(z)) > min(L), (6.3.31) 


где х — весовой коэффициент, определяющий целевую зиачимость качества решения 
по отношению к степени соответствия получаемого решения наблюдаемым даиным. 


6.3 МОРФОЛОГИЧЕСКИЕ СИСТЕМЫ И АНАЛИЗ ИЗОБРАЖЕНИЙ 447 


Для того чтобы задача (6.3.31) могла быть решена методом динамического про- 
граммирования, как фуккционал соответствия, так и функционал качества решения 
должиы быть представимы в следующей рекурсивно-кумулятивной форме: 


J(f(z), L(z)) = J (Emax) : (аа) = J(zi-1) + АД, L(z;)); 70) = 21000), N 
Q(L(z)) = (хак) : (ж) = (1) + AQ(L(z:-1), L(5)); Q0) 20, (63.33) 


где (2;), i = 0,..., imax — миожество дискретных значений аргумента рассматриваемой 
функции B ее области определения. 
Для приведенных выше примеров это будет, соответственно, 


Аа, L(z;)) = (f(i) – а); (6.3.34) 


AQ(L(Gz 1) L(1)) = (L(2:-1) - Ца). (6.3.35) 


Простейшая реализация решения данной задачи методом динамического программи- 
рования (ДП) основана на использовании двумерного аккумулятора A(z,l) размера 
(1-Fimax)N, где N — количество элементов дискретизации области значений pac- 
сматриваемой функцин. 

Рассмотрим в качестве примера процедуру ДЛ-реконструкции (фильтрации) глад- 
кой функции следующего вида 


Ф(/(2), Ца) = JU (2),2(2)) + (Ца) > min(L), (6.3.36) 


где функционалы J н Q опнсываются выражениями (6.3.32)-(6.3.36) соответственно. 
лгоритм І. 
Прямой проход динамического программирования. 
Шаг 0. Инициализировать значения крайнего левого столбца аккумулятора: 


А(0,1) = AJ(0), 1=0,...М-1. (6.3.37) 


Шаги i = 1,... imax. Определить значение каждого следующего столбца аккуму- 
лятора по формуле 


A(z;,l) = &J(zi,D + min(A(zi-i£) + &AQ()) 1=0,...М-1. (6338) 


Обратный проход динамического программирования. 
Шаг 0. Инициализировать значение крайнего правого элемента решения: 


L(zwax) = argmin(A(zwaxl)), [= 0,..., N - 1. (6.3.39) 


Шаги i = imax-1,...,0. Справа налево определить значение всех следующих эле- 
ментов решения по формуле: 


L(z;) = argmini(A(zi,!) + «АО(Ь L(zi+1))}, 0150... N - 1. (6.3.40) 


Конец алгоритма. ® 

В результате описанной процедуры ДП-фильтрации (DP-LSE) будет построено 
оптимальное решение задачи (6.3.28), (6.3.30), (6.3.31), причем фуикция L(z) будет 
«достаточно гладкой». 

Пусть теперь иеобходимо решить задачу сегментации наблюдаемой функции f(x) 
на области постоянного значения. Это означает, что функция-решение L(x) должна 
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принадлежать классу кусочно-постояниых функций, причем количество и протяжен- 
ность отрезков (областей) постоянного значения могут быть произвольными. 

Описанный выше Алгоритм 1 позволяет решить задачу ДП-сегментации, если 
изменить критерий качества решения (6.3.36) на следующий: 


0, если L(zi-1) = L(z.), 


AQ(L(zi-1),L(2;)) = 
1, если L(ri.1) # Цт. 


(6.3.41) 


Иными словами, штрафной функционал качества решения Q(L(r)) в этом случае 
будет иметь значение, равное числу переходов от одной области постоянного значе- 
ния к другой. Если при этом выбрать весовой коэффициент « достаточно большим, 
то любое изменение значения L(x) будет оплачиваться столь дорогим «штрафом», 
что оно окажется оправданным лишь при достаточном соответствующем уменьшении 
значения критерия J(f (x), L(z)). | 

В работе [83] показано, что процедура ДП-сегментации типа (6.3.36), (6.3.41) 
является алгебраическим проектором. Таким образом, оказывается определена Kpure- 
риальная проективная морфология на базе среднеквадратичной ДП-сегментации. 

Аналогичным образом можно рассмотреть и возможность построения проективной 
морфологии на базе монотониой ДП-сегментации. Пусть функционал (6.3.32) опреде- 
ляется следующими выражениями: 


+00, если f(z) < L(a); 


A Jopes (f (2), L(7)) = 
open (f (2), L(2)) —L(z)?, если f(z) > L(z), 


(6,3.42) 


+оо, если f(x) > Ца), 


АЈоо (/(х), L(x)) = 
оок (f (7), (8) Цт)?, если f(x) < L(z). 


(0.3.43) 


Тогда решение методом динамического программирования также определяет алгебра- 
ические проекторы соответственно DP-Open (6.3.42) и DP-Close 6.3.43. Доказано что 
монотонные проекторы являются проекторами вне зависимости от вида функционала 
качества Q. Это позволяет рассматривать () как аналог структурирующего элемента 
морфологии Серра и говорить об х()-открытии и «@-закрытии. Действительно, B 
случае, когда Q определяется выражением 6.3.41, решается задача морфологической 
сегментации, и результатом является кусочно-постоянная функция, монотонная ДП- 
морфология дает результат качественно аналогичный морфологии Серра с плоскими 
структурирующнми элементами. В то же время, когда Q определяется выражени- 
ем 6.3.33, решается задача морфологической фильтрации, и результатом является 
х-гладкая функция, то есть монотонная ДП-морфология дает результат качествен- 
но аналогичный морфологии Серра с гладкими (сферическими) структурирующими 
элементамн. 

На рис. 6.3.12-6.3.13 представлены примеры одномерной проективной монотонной 
морфологической фильтрации. На рис. 6.3.14-6.3.15 — примеры средиеквадратичной 
и монотонной проективной морфологической сегментации. На всех рисунках хоро- 
шо видна зависимость сложности морфологического описания данных от значений 
параметра «. 

Эксперименты, в частности, показали, что если для любой одномериой функции 
f(x) применить среднеквадратичную ДП-фильтрацию с некоторым х, то любая даль- 
нейшая фильтрация с тем же с более не изменяет полученное решение. 
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Рис. 6.3.12. Слева — исходная функция, далее результаты применения операторов ДП-фильтрации: 
DP-Open (о = 200) и DP-Closc(o -= 200) 


La CV rogram Files sli... - 7 Х ESEP oprem Неа 7X 


4 CVrogram t tes МР... в 7X 


Рис. 6.3.13. Слева — исходная функция, далее результаты применення oneparopos ДП-фильтрацни: 
DP-Open (œ= 1000) и DP-Close(a = 1000) 


Критериальная сегментация двумерных кривых методом динамического про- 
граммирования. Алгоритмы того же типа позволяют реализовать критериальную 
фильтрацию и сегментацию двумерных кривых (контуров бинарных изображений) 
методом динамического программирования, На рис. 6.3.16 и рис. 6.3.17 ноказаны при- 


450 МОРФОЛОГИЧЕСКИЙ АНАЛИЗ ИЗОБРАЖЕНИЙ ГЛ. 6 


меры применения операторов монотонной кусочно-линейной сегментации контуров 
бинарных изображений, реализованных методом динамического программирования, 
на рис. 6.3,18 — пример проективной морфологической сегментации двумерной кри- 
вой (контура двумерного бинарного образа) на базе кусочно-линейной интерполяции. 


TiC Proprium Ti 


Рис. 6.3.14. Слева — исходная функцня, далее результаты применення операторов ДП-сегментацни: 
DP-LSE (о = 500), DP-Open (о = 10000), DP-Close(c = 10000) 


Рис.6.3.16. Слева — исходная функция, далее результаты применения операторов ДП-сегментации: 
DP-LSE (x= 2000), DP-Open (о = 100000), DP-Ciose(œ = 100000) 
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Рис. 6.3.16. Пример коитуриой морфологической кусочио-линейной сегментации типа «открытне». 
Показаны результаты применения морфологического оператора при различных значениях структури- 
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Рис. 6.3.17. Пример контуриой морфологической Кусочио-линейной сегмеитацин типа «закрытие». 
Показаны результаты применения морфологического оператора при различных значениях структури: 
рующего параметра œ 


0-800 a=900 


Рис. 6.3.18. Пример Критериальной проективной морфологической сегмеитаини контура двумерного 
бинарного образа при различных значениях структурирующего параметра х 
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*Динамическое программирование и способы описания двумерных изображений. 
Как известно, строгое обобщение метода динамического программирования на случай 
оптимизации функционалов от функций, имеющих более одного аргумента, сталкива- 
ется с серьезными проблемами, поскольку уже координаты точек из №2, в отличие от 
точек R', не являются полностью упорядоченными. По этой причине граф структур- 
ных связей между элементами (пикселами) изображения, в отличие от аналогичного 
графа для элементов одномерных функций, имеет вид не цепи, а решетки, то есть 
включает множество циклов. Между тем, как известно из теории динамического про- 
граммирования, этот метод работает только для таких структур, граф структурных 
связей между элементами которых имеет вид ациклического графа (ACG) или дере- 
ва [350], поскольку только для таких графов существует возможность в любой точке 
разделить все влияющие на результат вычислений элементы на две группы: те, что 
находятся «выше» по дереву, и те, что «ниже». Такнм образом, растровое изображение 
(прямоугольная решетка пикселов) оказывается неподходящей структурой данных для 
непосредственного строгого применения методов динамического программнрования. 

Эта проблема породила, с одной стороны, ряд работ, предлагающих другие вы- 
числнтельные техники для оптнмизации целевых критериев на днскретных двумер- 
ных функциях, среди которых выделяется, в частности, группа подходов, основан- 
ных на технике «имитационного отжига» [163], а с другой стороны — стремление к 
разработке таких структурных моделей двумерных объектов, которые бы достаточ- 
но адекватно описывали яркостно-геометрическую и/или топологическую структуру 
изображения, но при этом, в отличие от решетки пикселов, имели нскомый вид ацнк- 
лического графа. Однако методы распространения состояний (evidence propagation) 
типа имитационного отжига являются существенно итеративными и, как и большнн- 
ство других итеративных методов оптимизацни, не гарантируют сходимости решения 
к искомому глобальному оптимуму. С практической точки зрения получаемые эти- 
ми методами квазноптимальные решення во многих случаях являются «достаточно 
хорошими», однако с точки зрения реализации проективных морфологических про- 
екторов их квазиоптимальность является принципиальным недостатком. Поскольку 
все доказательства проективности тех или иных операторов (см., например, [73]) no 
необходнмости основаны на TOM, что‘соответствующие критерин являются выпуклы- 
MH, что и обеспечивает единственность оптимального решения, квазиоптимальный 
вычислительный метод сразу превращает хорошо обоснованный критерий в плохо 
илн неопределенно обоснованный, что автоматически делает реализованный таким 
образом оператор непроективным (негарантированно проективным). Следовательно. 
необходнмо двигаться по второму пути и нскать адекватные каждой конкретной за- 
даче способы реализации методов динамического программирования для двумерных и 
трехмерных данных. Таких попыток нзвестно множество, причем каиболее успешны- 
ми, как и следовало ожидать, они оказываются при описании изображений объектов 
«высокого» уровня — например, структурных OCTOBOB в методе двумерных H трех- 
мерных обобщенных цилиндров [44]. Однако чем ближе мы оказываемся к уровню 
растровых данных, тем труднее описать их ациклическими графами так, чтобы не 
были потеряны какие-то существенные характерно двумерные свойства изображения. 
Впрочем, для некоторых частных задач такие решения найдены. Так, для анализа 
бинарных двумерных образов хорошо известна техника построения морфологических 
остовов (skeletons) [31] с последующим разрывом циклов в наиболее «напряженных» 
узлах. Для другой специфической задачи — стереоотождествления — во многих ра- 
ботах используется граф, представляющий изображение в виде строковых цепочек. 
связанных между собой только по одному опорному столбцу [351]. Такое представле- 
ние в виде «дерева строк» достаточно адекватно задаче анализа ректифицированных 
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стереопар, в которых строки двух изображеннй действительно попарно соответствуют 
друг другу, но вряд ли может быть признано в качестве общей структуры, универ- 
сально пригодной для решения основных типовых задач анализа изображений. Таким 
образом, вопрос о выборе структуры представления двумерных и трехмерных растро- 
вых данных в методе динамического программирования остается на сегодня открытым 
и является предметом интенсивных исследованнй. 

Динамическое программнрование на базе развертки по 
кривым Гильберта - Пеано. Одним из наиболее известных методов полного 
упорядочивания точек двумерной плоскости является так называемая «развертка», то 
есть отображение двумерного массива точек на одномерный. При этом для сохране- 
ния локальных яркостных свойств изображения желательно, чтобы точки, располо- 
женные «сравнительно близко» в двумерном пространстве, оказывались, как правило, 
«сравнительно близко» расположеннымн и в «развернутом» одномерном пространстве. 
Такими свойствами обладают развертки по кривым Гильберта-Пегно [84]. 


с=100 9= 1000 


Рис. 6.3.19. Проективиая сегментация зашумленного полутонового изображения с использоваинем 
разверткн по кривой Пеано при различных значениях модельного параметра o 


Использование развертки по кривым Пеано позволяет непосредственно применнть 
морфологические операторы сегментации и фильтрации одномерных функций, onH- 
санные в [83], к двумерным изображениям. На рис. 6.3.19 приведены примеры про- 
ективной сегментацни зашумленного полутонового изображения с использованием 
развертки по кривой Пеано при различных значениях модельного параметра х, опре- 
деляющего число областей постоянной яркостн. Такие операторы также являются 
проективными и при небольших значениях параметра « даже позволяют удалять C 
изображения незначительный аддитивный шум. К сожалению, как легко убедиться, 
форма сегментируемых таким способом областей оказывается весьма далека от ис- 
ходной и искажается тем сильнее, чем больше значение модельного параметра. Это 
связано с неизбежными недостатками «геометрического» упорядочивания точек изоб- 
ражения при помощи операции развертки. 


454 МОРФОЛОГИЧЕСКИЙ АНАЛИЗ ИЗОБРАЖЕНИЙ гл. 6 


Динамическое программнрование на основе стековых де: 
ревьев. Альтернативный подход, основанный Hà «яркостном» упорядочиванни TO- 
чек полутонового изображения представляется здесь существенно более перспектив- 
ным. В связн с этим в данной работе для алгорнтмической реализацни двумерных 
критеркальных морфологических проекторов, в частности, для решения задач струк- 
турной морфологической сегмен- 
тации и интерполяции полуто- 
новых изображений, предлагает- 
ся использовать представление 
двумерных изображений в виде 
т.н. стековых деревьев. Идею 
построения стековых деревьев 
для случая одномерных функ- 
ций иллюстрирует рис. 6.3.20. 
Ее обобщение на случай дву- 
мерных функций является есте- 
ственным и тривиальным. 

Рис. 6.3.20. Стековое дерево одиомерной фуикции Идея построения стековых 

деревьев восходит, с одной сто- 
роны, к идее бинарных морфологических остовов [240], а с другой — к стековому 
представлению (threshold decomposition) полутоновых изображений [346]. Нам пред- 
ставляется, что такая гарантированно ациклическая структура, обеспечивающая пол- 
ную реконструкцию полутонового изображения и при этом сохраняющая его суще- 
ственные геометрические и топологические особенности, может найти прнменение и 
во многих других областях морфологического анализа нзображений. 


а=0, п=1584 хе 100, п=371 «= 1000, п=120; 
EN 


@=10000, n=24 «7100000, n-8 а=1000000, п=3 @=1 0000000, n=l 


Рис. 6.3.21. Примеры морфологического открытия изображения по стековому дереву при различ- 
иых значениях модельного параметра а, определяющего Число n опорных срезовых областей 


Применение описанных B [85] алгоритмов решения задачи критериальной cerMeH- 
тации по стековому дереву к анализу двумерных изображений позволяет реализовать 
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проективные критериальные морфологические операторы типа открытия (рис. 6.3.21) 
и закрытия (рис. 6.3.22). Аналогичные процедуры динамического программирования 
по стековым деревьям могут быть построены и для реализации немонотонных морфо- 
логических проекторов. 


а=0, п=1395 0=10, 12813 а=100, п=480 221000, 1 «156 
Ш 


«10000000, п=1 


«210000, и-38 05100000, п=12 


Рис. 6.3.22. Примерь морфологического закрытия изображения по стековому дереву при различных 
значениях модельного параметра х, определяющего число n опорных срезовых областей 


*Проективные морфологии на базе методов интерполяции. Предложен ряд 
критериальных проективных морфологий на базе методов интерполяции. В качестве 
примера рассмотрнм процедуру кусочно-линейной сегментации одномерной фуикции 
на базе линейной интерполяции. Такая процедура любой одномерной функции f(x) 
ставит в соответствие некоторую ломаную L(z), значения которой совпадают с HC- 
ходной функцией в п опорных (узловых) точках. Число опорных точек является 
переменным. При этом ОДЗ V(f) представляет собой множество всех возможных 
ломапых, узлы которых принадлежат графику f. Однако легко показать, что при no- 
вторной сегментации уже сегментированной функции множество возможных решений 
V(f) © V(L). Определим критерий оптимальной сегментации функционалом 


D(f, L) = -J(L) + x(f, L) + «Q(L) ^ min(Z), 


rne J(L) — длина графика ломаной; Q(L) — число узловых точек. Иными словами, 
процедура оптимальной сегментации состоит в отыскании такой ломаной, которая 
одновременно максимизирует длину графика и минимизирует число опорных точек. 
Данный критерий является квазимонотонным no ОДЗ, и поскольку J(L) не зависит 
от f, описанная процедура кусочно-линейной сегментации является морфологическим 
проектором. Критерий J, имеющий смысл «максимум длины графика интерполирован- 
ной функции», легко обобщить на случай функций большего числа измерений. На- 
пример, для двумерной функции аналогичный критерий будет иметь вид «максимум 
площади поверхности графика интерполированной функции», и т, д. 
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Переход от монотонных K ква- 
зимонотонным критериям позволяет 
обосновать существование широко- 
го класса критериальных проектив- 
ных морфологий на базе структур- 
ной интерполяции, которые могут 
быть описаны следующим образом. 
Назовем набор образов X = (А) = 
= (Xi, Xa,..., Xn} С Я полным струк- 
турным описаниеи образа € Я, если 
X3 образ A может быть полностью од- 
нозначно реконструирован путем объ- 
Рис.6.3.23. Пример повторной кусочио-линейной единения элементов из Х: 
сегментации иа базе интерполяцик 


А = 5(Х) = Xi V Xa V... V X, 


где (Е,5) — операции сегментации и реконструкции соответственно. Определим MHO- 
жество опорных элементов интерполяции Y C X. Интерполированный образ в та: 
ком случае будет иметь вид А’ = $(ү(Ү)), где ү — оператор структурной интерпо- 
ляции такой, что VY : Y C e(5(y(Y))). Критериальная морфология на базе структур- 
ной интерполяции определяется решением следующей задачи: 


ф(А,Ф) = А’: (A, I) = ЛА, А’) + Х(Е(А), У) + о: QUY) — min(Y), (6.3.44) 


где J(A, А’) — критерий соответствия исходного и интерполированного образов; npe- 
дикат х(Х, У) описывает условие Y C X; Q(Y) = dim(Y) — число опорных образов, 
используемых при интерполяции. 

Если критерий J(A, А’) = —J(A') не зависит от А и при этом 


Y B € V(A) : J(B) < А), 


то в силу рассуждений, аналогичных проведенным выше для примера оптимальной 
интерполяции одномерной функции, оператор оптимальной структурной интерполя- 
ции (6.3.44) будет являться интерполяционным проектором. Используя различные 
способы структуриого описания изображений и различные критерии, можно строить 
различные практически полезные процедуры сегментации изображений на базе струк- 
турной интерполяции образов и изображений для различных предметных областей. 


6.3.6. *Морфологический анализ свидетельств. Перейдем к рассмотрению ве- 
роятностного подхода к морфологическому анализу изображений. Как было показано 
выше, в основе морфологического подхода лежит единая схема порождения анали- 
зируемых данных. При этом в большинстве практических задач от четких логиче- 
ских моделей необходимо перейти к вероятностным моделям. описывающим наши 
априорные знания и представления об этих ненаблюдаемых составляющих задачи. 
Пусть заданы: вероятностная модель формирования образа P(M): N -+ [0,1], ве- 
роятностная модель регистрации P(L/M): M — [0,1], вероятностная модель uc- 
кажений P(A/L): Mx © — [0,1]. rae Р(Х) обозначает «вероятность X», P(X/Y) 
обозначает «вероятность X при условии Y». Как следует из теории вероятностей, 
комплексный критерий анализа данных, включающий эти элементы, имеет вид кри- 
терия максимальной вероятности, требующего подобрать такое решение Г(А), ко- 
торое максимизирует оценку вероятности наблюдаемых образов 
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Определим оператор максимально вероятной реконструкции образа 
V:0— M, (А) = L: Р(А, Г) = P(A/L)- P(L/M) : P(M) ^ max(L). 


Имеет ли смысл накладывать Hà этот оператор условие проективности? Далеко не Bce- 
гда, ведь при вторичном применении оператора максимально вероятной реконструкции 
необходимо учитывать изменения в вероятностной модели, происходящие при замене 
реального образа А модельным L. 

Добавим в схему порождения данных модель измерений КА) : ® —^ 9", описы- 
вающую вычисление признаков. регистрируемых на изображении в ходе его анализа. 
Определим оператор максимально вероятной реконструкции образа по признакам 


фи: »М, P(A)= L: P(L) = P(t/L)- P(L/M) - P(M) > max(L), 


где P(f/L) = P(t/A) - P(A/L). При этой морфологии достаточным обоснованием вы- 
бора системы признаков является следующее условие 


P(f, L) ^ max(L) > P(A, L) > max(L), (6.3.45) 
TO есть что f должно быть достаточной статистикой для А: 
Р(Г/А)  P(L/t(A)). 
Пусть теперь задана структурная модель М вида 
L= 1 V Lav... V Lm 


и существует факторизация функции совместной вероятности 


Ра)= I[ Ц 5:62. 


iml... 28371, 


Тогда задача (6.3.45) принимает вид 


PL) |] [[ Poleti) > теж, Ln), (6.3.46) 
iz]l,...mjzl,..n 
где функции 
Pij (Sis Lj) : V; x 9; [0,1] 

определяют меру свидетельствования частного признака f; в пользу частной струк- 
турной гипотезы L;. Процедуру решения задачи (6.3.46) будем называть процедурой 
анализа морфологических свидетельств. 

Выше уже был описан метод анализа свидетельств на изображениях в форме [333]. 
В рамках данного метода обнаружение объектов на изображениях сводится к проверке 
гипотезы о нахождении изображения объекта на тестируемом реальном изображении. 
При этом любой яркостно-геометрической модели объекта ставится в соответствие 
некоторая экспертная вероятностная модель, описывающая статистические зависи- 
мости между особенностями изображения и гипотезой о принадлежности набліода- 
емого объекта данной яркостно-геометрической модели. Полученная вероятностная 
модель используется непосредственно в ходе низкоуровневого анализа конкретного 
предъявляемого изображения. Каждая обнаруженная особенность (характерная черта) 
данного изображения рассматривается как событие, свидетельствующее в пользу 
гипотезы (ряда гипотез) о наличии и характеристиках искомого объекта. 
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В рамках морфологического подхода «событиям» придается смысл морфологиче- 
ских событий, связанных с элементами морфологических описаний наблюдаемых 
изображений, а «гипотезам» — смысл морфологических гипотез, связанных C эле: 
ментами морфологических описаний их гипотетических прообразов. Это позволяет 
без изменений перенести в область обобщенного морфологического анализа весь ин- 
струментарий разработки методов анализа свидетельств на изображениях. 
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6.4. Контрольные вопросы и задачи 


К разделу 6.1. 

1) Что такое «морфологический фильтр»? Приведите примеры. 

2) Что такое «структурирующий элемент»? Как осуществляются эрозия и дила- 
тация на бинарных изображениях? Как связаны эрозия и дилатация с произвольным 
структурирующим элементом с рассмотренными ранее операторами циклического рас- 
ширения и сжатия? 

3) В чем смысл теоремы Матерона? 

4) Какие комбинации операторов расширения и сжатия составляют простейшие 
морфологические фильтры — открытие и закрытие? Как иначе могут быть определены 
бинарные фильтры открытие и закрытие? 

5) Задача: Какие из следующих утверждений относительно операций бинарной 
морфологии истинны? 

а) Результат открытия включает результат закрытия. 

6) Результат расширения включает результат закрытия. 

в) Результат расширения включает результат сжатия. 

г) Результат закрытия включает результат сжатия. 

д) Результат открытия включает исходное изображение. 

е) Исходное изображение включает результат закрытия. 

6) Задача: заданы фигура А и структурирующий элемент В (начало координат 
указано перекрестьем). Найти результаты расширения, сжатия, открытия, закрытия: 


7) Какие сушествуют способы обобщения морфологических операций ММ на по- 
лутоновый случай? 

8) Как осуществляется морфологическое выделение контуров и углов? 

9) Как вычисляется морфологический спектр? Какие особенности формы изобра- 
жений он отражает? 

10) Как определяется морфологический скелет бинарной фигуры? 

11) Для чего в дискретном случае применяется процедура утончения? 
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12) Как вычисляется непрерывный скелет многоугольной фигуры? Отрезки каких 
кривых в него входят? 

13) Как формируется и используется непрерывное гранично-скелетное представле- 
ние бинарных изображений? 

14) Почему задача вычисления скелета является некорректной? Как производится 
регуляризация скелетов? 

15) Чем операторы селективной морфологии отличаются от операторов классиче- 
ской ММ? 


К раздели 6.2. 

16) Какова математическая модель «формы» изображений по Пытьеву? 

17) Как вычисляется проекция изображения на форму другого изображения? 

18) Как вычисляется морфологический коэффициент корреляции по Пытьеву? По- 
чему в общем случае он не симметричен К(/, 5) # K(g, f)? 

19) Что означает отношение «более сложный по форме»? Это отношение частичного 
или полного порядка? Какие изображения считаются сравнимыми по форме? 

20) Как в морфологии Пытьева решается задача выделения отличий изображений 
по форме? 

21) Как в морфологии Пытьева решается задача обнаружение объекта по его изоб- 
ражению и оценки его координат? 

22) Задача: Заданы два кусочно-постояниых изображения f и g. Найти проекцию 
f надидна f. Сравнимы ли эти фигуры по форме? Чему равен морфологический 
коэффициент корреляции K(f,g)? 
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23) Задача: заданы два кусочно-постоянных изображения / и 9. Найти форму 
РЛС, которая не проще одновременно формы F и формы С. Найти форму РУ С, 
которая не сложнее одновременно формы F и формы С. 


24) Как вычисляется проекция на форму в морфологии на базе кусочно-линейной 
интерполяции? Какие элементы изображения характеризуют форму? Как вычисляется 
здесь морфологический коэффициент корреляции? 


64 КОНТРОЛЬНЫЕ ВОПРОСЫ И ЗАДАЧИ 463 


К разделу 6.3. 

25) Что такое «формальная морфологическая система»? Какие элементы в Hee BXO- 
дят? Приведите примеры различных морфологических систем. 

26) Чем критериальные морфологии отличаются от формальных? В какой форме 
могут быть заданы критерии, используемые в морфологическом анализе изображений? 
Какова их семантическая интерпретация? 

27) Как решаются основные классы задач обработки данных в рамках морфологи- 
ческого подхода? 

28) Как определяются проективные морфологические разложения? Приведите при- 
меры морфологических разложений. Как бинарное открытие Серра может быть пред- 
ставлено в форме объединения элементарных проекторов? 

29) Как решаются задачи обнаружения объектов с использованкем проективных 
морфологических разложений? 

30) Как вычислить морфологический коэффициент корреляции в морфологии Сер- 
ра? 

31) Как строится математическая морфология на базе преобразования Хафа и его 
модификаций? 

32) Как строятся морфологические операторы сегментации данных без потерь? Как 
связаны с ними морфология Пытьева и скелетная морфология? 

33) Как строятся морфологические операторы сегментации данных с потерями? 

34) Являются ли морфологии Пытьева и Серра критериальными? Если да, то chop- 
мулируйте эти критерии в явном виде. 

35) Что такое «переобучение»? Как критериальная морфология связана с идеями 
регуляризации некорректиых задач по Тихонову и теорией восстаиовления эмпириче- 
ских зависимостей Вапника-Червоненкиса? 

36) Что такое параметр морфологической сложности в критериальной проективной 
морфологии? Как можно построить морфологический спектр по этому параметру? 

37) Как строятся проективные критериальные морфологии? Какие типы критериев 
гарантируют проективность получаемых операторов? 

38) Какие проективные критериальные морфологии реализуются с использованием 
методов динамического программирования? Какие проблемы связаны с применением 
методов динамического программирования к двумерным изображениям, и как они 
решаются? 

39) Что понимается под морфологическим анализом свидетельств? 
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6.5. ПРАКТИЧЕСКИЕ ЗАНЯТИЯ по теме «Морфологический анализ» 


6.5.1. Бинарная математическая морфология. Рассмотрим пример работы фрейма 
бинарной фильтрации BMrph (закладка «Писофт 8.0»). 
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Рис. 6.5.1. Схема применения фрейма бинарчой морфологик ВМгрћ. Маска структурирующего эле- 
мента (окчо в правой верхней четверти). Диалоговое окно установки параметров маски расположено 
поверх окна маски структурирующего элемента 
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Рис. 6.5.2. Меню 


фрейма бинар- 
ной морфологии 
ВМгрћ 


Исходное восьмибитное изображение (левое окно в нижнем ря- 
ду окон изображений на рис, 6.5.1) содержит темные объекты на 
светлом фоне. Фрейм BMrph принимает на вход только бинарные 
изображения, поэтому, чтобы избежать конфликта типов данных, 
исходное изображение бинаризуем фреймом Віпагу (закладка «Ал- 
гебра»). Из меню фрейма BMrph вызовем пункт «Установить маску» 
(рис. 6.5.2). В появившемся окне создания маски структурирующе- 
го элемента выберем его форму (круг, прямоугольник, крест, тре- 
угольник, шестиугольник) из выпадающего списка «Выбор». Сле- 
ва от списка находятся 3 пиктограммы (слева направо): создания 
новой маски (пиктограмма «New»), загрузки существующей маски 
(пиктограмма «Ореп») и сохранения созданной маски (пиктограмма 
«Save»). 

Поскольку в данном примере объекты имеют круглую форму, HC- 
пользуем круглый структурирующий элемент. В появившемся диа- 
логовом окне «Параметры маски» зададим диаметр круга. Выбрав 
из меню фрейма BMrph пункт «Открытие», получим результат мор- 
фологического открытия (среднее окно в ряду изображений). За- 
метим, что выбранный структурирующий элемент удалил мелкие 
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окружности, диаметр которых меньше диаметра структурирующего элемента. Для 
наглядности результата морфологического открытия с помощью фрейма ALU вычтем 
из полученного изображения исходное. Разность двух изображений (окно справа) 
позволяет увидеть мелкие объекты, удаленные морфологической фильтрацией. 


6.5.2. Морфологический спектр. Фрейм SMrph позволяет исследовать морфо- 
логический спектр объектов на изображении. График на рис. 6.5.3 показывает рас- 
пределение объектов по их размерам. В данном примере на изображении имеются 
изолированные объекты круглой формы и морфологический спектр непосредственно 
определяется распределением этих объектов по размеру (по величине их радиусов). 


Рис. 6.5.3. Использование процедуры «Морфологический спектр» 


6.5.3. Полутоновая математическая морфология. Познакомиться с полутоно- 
вой морфологической фильтрацией можно при помощи фрейма FMrph, находящегося 
в закладке «Писофт 8.0». Выберем форму структурирующего элемента (диалоговое 
окно создания маски на рис. 6.5.4) в меию фрейма (рис. 6.5.5). Результаты четырех 
основных морфологических операций представлены на рис. 6.5.4-6.5.7. 

Интересно сравнить полученные результаты обработки изображения морфологиче- 
скими операторами со структурирующим элементом в форме круга (диаметром 11 пик- 
селов) с результатами простой морфологии в разделе 3.5. рис. 3.6.25-3.6.28. Можно 
заметить, что использование структурирующего элемента в форме круга диаметром 
|! пикселов примерно соответствует применению пяти итераций структурирующих 
элементов для каждой из морфологических операций простой морфологии. 
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Рис. 6.5.4. Результат обработки изображеиня морфологическим оператором эрозии (сжатия) со 
структурирующим элемеитом в форме круга (диаметром 11 пнкселов) 


s 
"- n I lO Áo .-`- 
Lol ——ALS LL D SET 
A С AIL 
-—— 00 
.. LI —— 
" E 
nee n 


е н 


Рис. 6.5.5. Результат обработки изображения морфологическим оператором дилатации (расшнрепия) 
со структурирующим элементом в форме круга (диаметром 11 пикселов) 
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Рис. 6.5.6. Результат обработки изображения морфологическнм оператором открытия со структури- 
руюшим элементом в форме круга (диаметром 11 пихселов) 
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Рис. 6.5.7. Результат обработки изображении морфологическим оператором закрытия со структури: 
рующим элементом в форме круга (днаметром 11 пикселов) 
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6.5.4. Утончение контуров и скелеты фигур. Фреймом ТЕ т получения и обра- 
ботки утончеиного препарата можно осуществлять утончение контуров объектов для 
последующей обработки, а также построение дискретных скелетов сплошных объек- 
тов (фигур). 

Рассмотрим сначала залачу утончения контуров. Дополним схему выделения кон- 
туров оператором Собела фреймами бинаризации Binary и утончения Thin (рис. 6.5.8). 
Фрейм бинаризации Binary преобразует полутоновое изображенне контурного препа- 
рата в черно-белое по заданному порогу. Если на изображении присутствуют объекты 
различной контрастности, то бинаризованные контура при этом могут оказаться раз- 
личной толщины, вследствие чего их необходимо утончить до толщины в ] пиксел. 

В меню фрейма утончения Thin установим тип фона (в пашем примере фон черный) 
и в окне диалога, вызываемом по нажатию на пункт меню «Утончение», установим 
параметры «Длина_1» и «Длина_2», а также отображение результатов постобработки: 
получение утонченного препарата (кнопка «Утонченный препарат»), отображение кра- 
евых точек (кнопка «Краевые точки») и визуализация точек узлов (кнопка «Узловые 
точки»). 
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Рис. 6.5.8. Утончение коптуров. полученных оператором Собсла 


Рассмотрим также пример утончения сплошного (не контурного) бинарного изоб- 
ражения на примере растрового изображения печатного текстового символа •В». На 
рис. 6.5.9 приведена схема обработки. позволяющая рассматривать результат опера- 
ции утончения, наложенный на исходное бинарное изображение (для этого использу- 
ется фрейм алгебры изображений с функцией «исключающее ИЛИ» и фрейм простой 
морфологии, визуально увеличивающий толщину полученных в фрейме Thin тонких 
линий и особых точек). На рис. 6.5.9 показаи результат утончения, представляющий 
собой скелет бинарной фигуры. На рис. 6.5.10 и рис. 6.5.11 — концевые и узловые 
точки скелета соответственно. 
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Рис. 6.5.9. Результат утончения — скелет бннарной фигуры 


Рис. 6.5.10. Концевые точки скелета 


Рис. 6.5.11. Узловые точкя скелета 
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Рис. 6.5.12. Скелет штрих-кода. Результат в правом верхием окие 
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Punc. 6.5.13. Утоичение бинаризованиого микроскопического изображения препарата кровн. Парамет- 
ры диалога «Длииа_1»=20. «Длина_2»=30 
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6.5 ПРАКТИЧЕСКИЕ ЗАНЯТИЯ ПО ТЕМЕ «МОРФОЛОГИЧЕСКИЙ ЛНАЛИЗ» 471 


Рис. 6.5.14. Утоичение бипаризованиого микроскопического изображения препарата крови. Flapa- 
метры диалога eJlnuua, |» н «Длина_2» равны пулю 


Примеры обработки бипариых изображений нескольких типов реальных объек- 
тов — штриховых кодов и элементов препарата крови демонстрируют рис. 6.5.12- 
6.5.14. Заметим, что параметр диалогового окна «Длина_1» выполняет здесь функцию 
селекции замкнутых контуров по размеру, а параметр «Длина_2» освобождает препа- 
рат утончення от паразитных ответвлений. 


ГЛАВА 7 


ТЕХНОЛОГИИ И ПРИЛОЖЕНИЯ МАШИННОГО ЗРЕНИЯ 


В предыдущих главах были описаны основные математические и алгоритмические 
подходы, используемые в настоящее время при решении общих задач машинного 
зрения. Однако прежде чем мы сможем считать данный курс обработки и анализа 
изображений завершенным, читателю необходимо еще составить себе хотя бы общее 
представление о том, какие конкретные практические задачи призваны и способны 
решать современные системы технического зрения, какие характеристики по точно- 
сти, надежности и быстродействию они должны и могут при этом обеспечивать и 
какие специализированные технологии обработки и анализа изображений при этом 
используются. Дело в том, что в настоящее время процессы специализации в обла- 
сти машинного зрения зашли так глубоко, что впору говорить о расслоении некогда 
единой области на несколько отдельных прикладных областей. Несмотря на общую 
идейную и математическую основу, методы, которыми решаются, например, зада- 
чи анализа движения, сегодня разительно отличаются от методов биометрического 
распознавания или технических измерений. Поэтому, помимо примеров практических 
систем машинного и компьютерного зрения, в данной главе представлены и несколько 
вспомогательных теоретнческих разделов, описывающих основы специализированных 
подходов к решению соответствующих проблемно-ориентированных задач, Каждая из 
них заслуживает отдельного учебного курса, по здесь мы ограничимся лишь краткнм 
ознакомительным введением в проблему. В данной главе звездочкой (для углублен- 
ного изучения) помечены разделы, посвященные технологиям, чтобы не путать их с 
разделами, посвященными конкретным системам и приложениям. 

В создании практических приложений, описанных в данной главе, принял уча- 
стие большой коллектив сотрудников ФГУП «ГосНИИ Авиациониых систем» и ЗАО 
«Институт информационных технологий». Некоторые из этих систем были созданы 
специалистами других организаций либо в кооперации с ними. Необходимо сразу 
оговориться, что выбранные нами в качестве прнмеров прикладные системы не явля- 
ются какими-то особо упикальными ло своим достижениям, Напротив, в контексте 
данной главы принципиально как раз то, что во всех описанных примерах практиче- 
ских приложений решались достаточно типовые задачи машинного и компьютерного 
зрения, а также то, что технические характеристики описанных ниже систем явля- 
ются типовыми и удовлетворительными на современном этапе развития технологии, 
программных и аппаратных средств машинного зрения, Естественно, мы выбрали для 
иллюстрации типовых задач те системы, с которыми ближе знакомы — в силу того, 
что принимали участие в их разработке, тестировании или обсуждении, 

Практические приложения и технологии сгруппированы по следующим крупным 
тематическим блокам: 

® авиационные и космические приложения: 

® обработка документов, оптическое распознавание, поиск визуальной информа- 
ции; 

® автоматизация измерений и технический контроль; 

e зрение роботов; 

e видеонаблюдение, системы безопасиости, поисковые системы; 

e бнометрия; 

• медицинские приложения. 
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Многие параграфы данной главы. посвященные специализированным темам, под- 
готовлены на основе материалов, любезио предоставленных нашими коллегами: 
IO. C. Тюфлииым — по дальней фотограмметрии и дистанционному зондированию, 
С.В.Скрябиным — по полуавтоматическому выделению протяжениых объектов, 
О.В.Выголовым — по системам улучшенного видения для самолетов гражданской 
авиации, C. И. Ортюковым — по штриховым кодам, B. А. Книзем — по короткоба- 
зисной фотограмметрии и системе бесконтактных измерений, А. Б. Беляковым — 
по автодорожному сканеру, К.Н. Стрельниковым — по блочным методам анали- 
за движения, Ю.В. Морзеевым — по биометрии и обнаружению силуэта человека, 
B. IO. Гудковым — по дактилоскопии, О. В. Ушмаевым — по мультибиометрии. 


7.1. Авиационные и космические приложения 


7.1.1. Область применения: авиациониые приложения. Системы управления со- 
временными летательными аппаратами (ЛА) предназначены для управления сложны: 
ми многофункциональными объектами, действующими в сложной окружающей обста- 
новке. При этом канал зрительного восприятия является одним из наиболее важных 
источников информации как автоматических, так и в автоматизированиых (человеко- 
машинных) системах управления. Вследствие этого в последние годы на передний 
план все в большей степени выходят задачи создания систем технического зрения 
ДЛЯ Их типов ЛА как гражданского, так и оборонного назиачения, 

оворя об оборонной технике, пеобходимо учитывать, что современная парадигма 
применеиия авиационных сил уже не оперирует, как правило, отдельными изолиро- 
ванными ЛА, Речь идет о построении и использовании целостной системы управле- 
ния, связи, обработки и сбора ииформации (т. н. системы CAI). Эта система включает 
множество ЛА, а также целый ряд подсистем, служб и сетей, в том числе связанных 
с изображениями и географическими данными. В нее входят космические и авиаци- 
онные платформы получения данных, службы географической поддержки, наземные 
системы сбора информации, системы планирования операций, моделирования, нави- 
raum, управления движением, целеуказания и ряд других. Неотъемлемой частью no- 
строения системы C4[ является сбор и комплексирование информации, поступающей 
от датчиков различной физической природы, таких как KOCMOCHHMKH, авиаснимки, 
видео и ИК-данные, данные от радаров, лазерных систем и т.д, 

С учетом этого самолет начала ХХІ века должен обеспечивать быструю и по- 
мехоустойчивую передачу больших объемов данных, высокую точность навигацнон- 
ных систем, сверхбольшую дальность применения, всепогодность, высокую точность 
и гибкость при выполнении поставленных задач. Создания и применения различных 
технологий анализа изображений требуют сегодня системы сбора информации на базе 
космических, авиационных и БЛА носителей, системы подготовки полетных заданий, 
системы высокоточной геопространственной привязки, системы автономного управле- 
ния высокоточиых беспилотных ЛА и летающих робототехнических комплексов 

Для зарубежных исследований в области технологии автоматического обнаруже- 
ния целей (АТВ) было характерно чередование относительных успехов и неудач npu- 
мерно до 1987 r., когда научно-технический комитет МО США окончательно признал 
ее перспективной в рамках программы LANTIRN. В ходе реализации этой программы 
былн преодолены трудности, связанные с распознаванием воздушных и крупных ста- 
ционарных целей в условиях отсутствия нли наличия незначительных местных помех. 
В настоящее время исследования технологии АТВ ведутся главным образом с точки 
зрения ее применения в оптико-электронных системах, РЛС и системах с комбинацией 


474 ТЕХНОЛОГИИ Н ПРНЛОЖЕНИЯ МАШИПНОГО ЗРЕНИЯ ГЛ. 7 


датчиков. Именно в этих направлениях сосредоточены усилия научных лабораторий 
и промышленных фнрм, причем основное внимание уделяется усовершенствованию 
алгоритмов, датчнков н процессоров. 

Фирмы Martin Marietta и Texas Instruments ведут разработку подсистем обиару- 
жения и алгоритма распознавания целей для системы самонаведения крылатых ракет 
(КР), предназначенных для автономного поиска и уничтожения особо важных объ- 
ектов. Подсистема фирмы Martin Marietta включает РЛС миллиметрового диапазона 
и снстему FLIR. Фирма Texas Instruments в качестве средства обнаружения избра- 
ла лазерный локатор LADAR и систему FLIR. Алгоритмы распознавания целей обеих 
конкурирующих фирм используют сопоставление их трехмерного изображения с моде- 
лью, введенной в память системы обработки данных, или же их сигнатур, полученных 
под различными углами обзора. Весь процесс распознавания занимает доли секунды. 
В случае недостатка данных КР может сойти с маршрута, сблизиться с объектом и 
совершить его облет. По заявлению представителей фирмы Texas Instruments, разра- 
ботанный фирмой алгоритм ATR позволяет различать пусковые установки ЗРК и ракет 
класса «поверхность-поверхность» илн же транспортные автомашины и подвижные 
пункты связи. По утверждению фирмы Martin Marietta, разработанный ею алгоритм 
с вероятностью 85% обеспечивает распознавание трех типов армейскнх транспортных 
средств с примерно равными размерами и сходной конструкцией. 

Алгоритмы распознавания целей с использованием нейронных сетей разрабаты- 
ваются в США управлением DARPA. В центре исследований — отработка алгорит- 
мов на основе абстрактного представления целей вместо использования детальных 
изображений. Это особенно важно в тех случаях, когда возникает необходимость в 
усовершенствовании систем АТВ с включением изображений новых целей, так как 
значительно сокращает время на сбор информации н отработку алгоритма. 

В 1999г. на вооружение палубной авиации ВМС США поступила тактическая 
крылатая ракета Boeing AGM-84H SLAM-ER — первая американская система ору- 
жия, обладающая способностью автоматического распознавания целей (режим АТВ — 
Automatic Target Recognition). По сравнению с режимом автоматического захвата це- 
ли (АТА — Automatic Target Acquisition), реализованным ранее в ряде авиационных 
средств поражения, в режиме ATR изображение потенциальной цели, получаемое 
бортовыми датчиками, в реальном масштабе времени сравнивается с ее цифровым 
образом, заложенным в память БЦВМ, что позволяет осуществлять автономный по- 
иск объекта, его идентификацию и нацеливание ракеты при наличии лишь прибли- 
зительных данных о местонахождении цели. Автономные ЛА типа КР JASSM также 
снабжаются комбинированной системой наведения — инерциально-спутни ковой на 
маршевом участке полета и тепловизиониой, C режимом автоматического распознава- 
ния целн, — на конечном. Такая комбинированная система позволяет, в частности, 
реализовать режнм перенацеливания в полете. 

В заключение данного параграфа необходимо еще раз отметить, что задача авто- 
матического или автоматизированного обнаружения целей является, безусловно, 6a- 
зовой, но все же частной технологической задачей по отношению ко всему комплексу 
задач машинного зрения в перспективных ЛА, которые в общих чертах могут быть 
сформулированы следующим образом: 

© обнаружение объектов и изменений в сцене наблюдения: 

® высокоточные измерения элементов сцены; 

е слежение за объектами; 

e самоориентация и самопозиционирование ЛА; 

® реконструкция наблюдаемых поверхностей и обнаружение трехмерных структур; 

® описание сцены и идентификация объектов. 
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7.1.2. Системы высокоточного наведения. Использование технологий машинно- 
го зрения, включая методы теории обработки изображений и распознавания образов, 
являются альтернативой [JIOHACC/GPS технологиям (a в некоторых случаях и их 
дополнением) при формировании облика бортовых высокоточных интегрированных 
систем навигации и наведения беспилотных маневренных летательных аппаратов. 

Практическая применимость технологий машинного зрения в значительной степе- 
ни основана на достижениях в области микроэлектроники и разработках сенсорных 
бортовых технических устройств в видимом. инфракрасном и радиолокационном диа- 
пазонах излучения электромагнитного спектра, а также на возможности реализации 
сложных алгоритмов комплексной обработки текущей информации от иескольких ис- 
точников в современных вычислительных архитектурах. 

С технической точки зрения проблема использования технологий машинного 3pe- 
ния для решения задач навигации и наведения беспилотиых маневренных летатель- 
ных аппаратов формулируется следующим образом, 

Необходимо сопоставить текущее изображение и эталонное модельное описание 
сцены наблюдения с последующей локализацией на текущем изображении заданных 
объектов сцены и определением значений текущих координат этих объектов с це- 
лью формирования сигналов управления движением летательного аппарата по суще- 
ствующей априорной и апостериорной Нери о рассматриваемой сцене (участке 
земной поверхности), 

Априорная ннформация включает, как правнло, следующие данные: тип и колнче- 
ство объектов сцены, их взаимное расположение, геометрические и яркостные харак- 
UM характеристики двумерных полей (поля рельефа, оптического контраста и 
Tn). 

Апостериорная информация o иаблюдаемой B процессе полета сцене, заключенная 
в текущем изображении на выходе бортового сенсора B том или ином спектральном 
диапазоне, включает данные об условиях ее наблюдения, характеристиках сенсорных 
датчиков и т. и. 

Поннтие «эталонное описание» рассматривается здесь в самом широком смысле. 
Это могут быть непосредственно изображения, двух- (20) и трехмерные (30) геомет- 
рические модели, векторы признаков, другие формальные описания объектов и сцены 
ит. п, 

Существенные ограничения, затрудняющие возможность практического решения 
сформулированной технической задачи, состоят в следующем: 

®априорная неопределенность относительно объектов распознавания и сцены в 
целом (неточность определения координат объектов, изменчивость двумерных полей 
ит, д.}; 

® радиометрические (яркостные) и геометрические искажения текущего изображе- 
ния (изменения общего уровня яркости, масштаба, сдвиг и поворот изображения OT- 
носительно всех трех ортогональных осей и т, д.), приводнщие к его пространственно- 
времеиной трансформации; 

® помехи естествеиного и искусственного происхождения, включая полное или ча- 
стичное затенение (загораживаиие) объектов или сцены в целом. 

Исходя из сказанного, можно сформулировать три основных иаправления иссле- 
дований по преодолению перечисленных трудностей. 

1) Разработка методов, технических средств и технологий формирования эталон- 
ных изображений (эталонных описаний) на основе использования аэро- и космосним- 
ков заданных участков земной поверхности, каталогов отражательных характеристик, 
описаний характерных черт объектов естественного и искусственного происхождения, 
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априорной информации об условиях наблюдения рассматриваемых сцен при получе- 
нии текущих изображений и т. д. 

2) Разработка бортовых алгоритмов совмещения эталониого и текущего изобра- 
жений, локализации и определения координат заданиых объектов, обеспечивающих 
робастность по отношению к нзменению априорной информации о характеристиках 
изображеиий наблюдаемых сцен, оптимальную организацию вычислительиого процес- 
са в бортовых вычислительных устройствах и т. д. 

3) Создание системы управления, использующей бортовые сенсориые устройства 
различного типа и бортовые вычислительные устройства, реализующие алгоритмы 
совмещения эталонных и текущих изображеиий и определения координат заданных 
объектов сцены для наведения летательиого аппарата на выбранную точку прицели- 
вания, 

Здесь можно выделить два практически реализуемых класса систем управления и 
наведения беспилотных маневренных летательных аппаратов: 

ө автоматизированные (в большей или меньшей степени) бортовые системы об- 
работки изображений и распозиавания объектов сцены, решающие весь комплекс 
задач (наблюдения сцены, обнаружения, распознавания и целеуказания) с участием 
человека-оператора на борту самолета-носителя; 

ө автоматические (автономные) бортовые системы обработки изображений и pac- 
познавания объектов сцены, полностью решающие весь комплекс аналогичных задач 
на борту беспилотного маневренного летательного аппарата в процессе его голета. 

В системах первого класса (автоматизированных) главным действующим лицом 
при обработке информации и принятии решения является человек-оператор. В этих 
случаях в качестве эталонного изображения используются изображения сцены, полу- 
ченные с помощью бортового сенсориого датчика самолета-носителя или беспилотного 
маневренного летательного аппарата с нанесенной на ием оператором меткой (коор- 
дннатами) целеуказания непосредственно перед пуском. Дальнейшее сопоставленне 
эталонного и текущего изображений осуществляется бортовой снстемой наведення 
беспилотного маневренного летательного аппарата в процессе его полета. 

Прнменительно к проблемам навигации и наведения беспнлотных маневренных 
летательных аппаратов предметом данной главы являются системы второго класса 
(автономные). В таких системах подготовка эталонной ннформации осуществляется 
заранее, до вылета самолета-носнтеля. с помощью специализированного наземного 
комплекса подготовки полетных заданий. Средн многочисленных задач, решаемых 
таким комплексом, выделим следующие: 

®выбор оптимального маршрута автономиого полета беспилотного летательного 
аппарата; 

®выбор зои коррекции системы навигации, B том чнсле с использованием харак- 
теристик фнзических полей Земли (поля рельефа, поля оптического контраста H T. 
п.); 

® определение зоны обнаружения, распознавания и целеуказания заданного объек- 
та; 

® формирование эталонного опнсания сцены и заданного объекта; 

e нанесенне точки прнцелнвання, 

Прн этом обязательно учнтываются свойства автономной системы наведення бес- 
пнлотного маневренного летательного аппарата, структура алгорнтмов обнаружения, 
распознавания и целеуказання, характеристикн текущего нзображения, В rex cay- 
чаях, когда нсходной ннформацней для эталонного описания являются фотоснимки, 
а бортовые датчики, формнрующие текущее нзображение, работают в другом, Ha- 
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прнмер, в ннфракрасном нлн радиолокационном диапазонах, решается также задача 
построення сннтезировашюго эталонного опнсания. 

Функциональная схема такой автономной снстемы наведения включает следующие 
основные блоки: 

®систему обработки и распознавания нзображений объектов на земной поверх- 
ностн (СОРИ), используюшую датчнк нзображения и специалнзнрованный вычис- 
литель, реалнзующий бортовые алгорнтмы обнаруження, распознавания заданного 
объекта, определення коордннат выбранной точки на поверхностн объекта н целеука- 
зания; 

e систему автоматического сопровождения измеренных координат выбранной точки 
целеуказания (в непрерывном или днскретном режнме) в процессе наведения беспн- 
лотного летательного аппарата; 

®инерцнальную навнгацнонную систему (ИНС), обеспечивающую на этапах об- 
наруження, распознавания и целеуказання: 

— позниионнрованне оптической осн датчика изображения СОРИ в расчетном (за- 
данном) положенни; 

— слежение датчнка изображения за выбранной точкой целеуказання; 

— управленне летательным аппаратом при срыве автосопровождения; 

®блок фильтрацни (БФ), обеспечивающнй оценку вектора фазовых координат ABH- 
жущегося объекта с использованием алгоритмов комплексной обработки ннформации 
от ИНС н датчнка (датчиков), формнрующнх текущие нзображения; 

®блок формнрования сигналов управления двнжущимся объектом (БФСУ). 

Прн этом под «заданиой» точкой целеуказання подразумевается точка на сцене 
нли объекте, коордннаты которой рассчитываются заранее н задаются на эталонном 
изображенни и в ИНС перед пуском беспилотного летательного аппарата. 

«Выбранная» точка целеуказання характеризуется определяемымн в процессе рас- 
познавания и целеуказания нзмеренными в СОРИ значениями координат точкн прнце- 
ливання на текущем нзображеннн. В эту точку и осуществляется процесс наведення 
беспилотного летательного аппарата, 

Один из возможных варнантов функционирования рассматриваемой системы прн- 
ближенно может быть описан, например, следующей последовательностью действий: 

®после выхода беспилотного летательного аппарата в заданный район наблюде- 
ния участка земной поверхности по информацин от ИНС определяются расчетные 
значения углов ориентации и угловых скоростей лнини внзирования в вертикальной 
и горизонтальной плоскостях, наклонной дальности до заданного объекта (фрагмента 
изображения), в соответствни с которыми осуществляется выставка оптической оси 
датчика изображений в направленни расчетной (заданной) точкн целеуказання; 

eB расчетной точке траскторин формнруется текущее изображение (ТИ) объекта 
и района его расположения в зависимостн от возможностей датчика изображений, 
скорости движення летательного аппарата и его маневренных возможностей, постав- 
ленной задачи H T. д.; 

®осуществляются операции первнчной обработки ТИ (фнльтрация и т. п.) и cono- 
ставления его с записанным н хранящимся в памяти вычислителя СОРИ эталонным 
модельным описаннем цели; в результате решаются задачн обнаруження, распознава- 
ння и целеуказания заданного объекта. При этом по информации от ИНС осуществ- 
ляется программное управленне датчиком нзображеннй для непрерывной ориентацни 
его оптической оси в направленнн выбранной точкн целеуказання: 

®после определения коордннат выбранной точкн прицелнвання осуществляется 
переход в режнм азтосопровождения (АС) этой точкн по снгналам от СОРИ н фор- 
мнрованне снгналов управленин, пропорциональных нзмеренным значенням угловых 
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скоростей линни визнровання, углов н дальности. При этом допускается возможность 
повторення процедур обработкн ТИ и сопоставления его с эталонным нзображением 
(ЭИ), распознавания заданного объекта н определения его коордннат; 

e в случае срыва процесса АС управляющие снгналы формнру ются по ннформацнн 
от ИНС с учетом оценок, получаемых в блоке фнльтрацни (БФ). 

Ниже в данной главе обсуждаются современные н перспективные возможности ре- 
шення задач первого из трех перечисленных в начале параграфа направлений — раз- 
работка методов, техннческих средств и технологнй формирования эталонных изоб- 
раженнй и опнсаний прнменнтельно к CHCTeNaM управлення беспнлотных маневрен- 
ных летательных аппаратов тнпа систем самонаведення, осуществляющим понск н 
автоматнческий захват заданного объекта нли его элемента с последующнм автосо- 
провожденнем в процессе полета. 


7.1.3. Системы подготовки полетной информации. Как уже отмечалось выше, 
формнрованне эталонного н текущего изображений, а также соответствующих этнм 
изображенням опнсаннй н алгоритмов сравнения в значнтельной степени основыва- 
ется на использованни методов н технологий машннного зрения [86]. Прн таком под- 
ходе входная ннформацня представляет собой изображенне рассматриваемой сцены 
(или несколько изображеннй, включая стереопары), а выходная состонт нз ннформа- 
UHH о сцене, породившей это изображение (нли нзображения), напрнмер, выходная 
информация может являться опнсанием сцены в какой-лнбо форме. 

Такие опнсания должны соответствовать как эталонному, так и текущему нзобра- 
женням и быть представлены в форме, обеспечивающей возможность последующего 
сопоставлення этнх опнсаннй для локалнзации объектов наблюдаемой (текущей) сце- 
ны и определення необходнмых для управления летательного аппарата коордннат. 

Подчеркнем еще раз, что прн формировании эталонного обесиечення для снстем 
рассматрнваемого класса необходнмо учнтывать следующее: 

€ возможность использованнн результатов аэро- и космофотосъемкн участков зем- 
ной поверхностн (плановых, наклонных, стереоизображеннй) в качестве основного 
информационного матернала; 

€ возможность затенения и загораживгния отдельных поверхностей н объектов в 
целом как на аэро- и космофотоснимках, так и на текущнх нзображеннях рассматри- 
ваемых сцен; 

е возможность нспользования дополнительных материалов — каталогов отража- 
тельных характеристик различных конструкцнй н поверхностей, размеров типовых 
объектов и т. д.; 

®объемность (трехмерность) рассматрнваемых сцен, поскольку точка прнцелнва- 
ния может задаваться на поверхностн пространственного объекта, прн этом подразу- 
мевается известность третьей координаты этой точки; 

®относнтельно большне размеры наблюдаемых участков земной поверхностн на 
текущем изображенни с лннейными размерами на местностн до 1-2 км н высокая 
объектовая насыщенность этнх участков — до 10-15 объектов; 

е наличне ошибок в определенин относительных н собственных координат объек- 
тов в процессе дешнфрировання и локалнзацни разлнчных объектов илн характерных 
черт местностн естественіюго н искусственного пронсхождеиня на сннмках; 

е изменчивость характеристнк участков земной поверхности — изменение яркост- 
ных, геометрическнх, текстурных и т. п. свойств объектов в зависнмости от освещен- 
ностн, временн суток, времени года н т. д. 

Остановимся кратко на анализе возможных походов к формнрованню эталонных 
изображеннй с учетом перечисленных выше обстоятельств. 
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Помимо методов построения трехмерных геометрическнх моделей сцен по одному 
нлн нескольким изображениям возможны и другие подходы к формированию эталон- 
ных изображеннй и эталонных опнсаннй. 

Однн из возможных подходов основан на использованни в качестве модели трех- 
мерного объекта набора его двумерных изображеннй. Процесс идентнфнкацин объ- 
екта в этом случае заключается не в отысканни наиболее подходящего эталонного 
нзображения среди набора проекций, хранящихся в памятн бортовой вычислнтель- 
ной машнны, а в определении оптимальной комбинацни этих проекцнй, позволяющей 
использовать для идентификации достаточно малое число проекций с целью учета 
трехмерного характера геометрин объектов и сцены, 

Представляет определенный интерес и подход, характеризуемый как «определе- 
ние формы по тени». Этот подход связан, с одной стороны, с возможным затенением 
нзображеннй отдельных объектов на исходных аэрокосмическнх снимках рассмат- 
риваемых сцен; с другой стороны, — с возможностью более точного определения 
координат объектов на сцене по отбрасываемой тени (в основном — высот объектов). 

Как уже указывалось ранее, в бортовой системе наведения беспилотного манев- 
ренного летательного аппарата при решении задач обнаружения, распознавания и 
целеуказания после предварительной обработки эталонного и текущего изображе- 
ний (фильтрации, выделения одпородных областей, граннц, контуров и т. п.) могут 
использоваться как сами двумерные изображения, так н нх модельные описання, 

Эталонное опнсание в этом случае представляет собой опнсанне в снмвольной 
форме характерных черт полученного 2)-изображения (нлн набора нзображений) cue- 
ны и практически однозначно связано с характером получаемого на борту текущего 
изображення и принятым алгорнтмом обнаружения и локализацни объектов сцены. 

Важнейшей характеристикой объектов нскусственного происхождения является их 
правильная геометрическая форма, что допускает возможность представления их гра- 
ниц набором прямых лнннй, овалов, и т. п., характернстики которых (длнна, наклон, 
контурные точки и т. д.) составляют характерные черты изображения. 

Рассмотрнм теперь возможную последовательность основных этапов подготовки 
эталонного описання при формированни конкретного полетного задання. 

Исходными даннымн прн этом являются: 

e цифровая модель местности (LMM), подготовленная с нспользованием аэро- и 
космофотосннмков и методов построения трехмерных геометрнческих моделей, вклю- 
чающая цнфровые моделн объектового состава ; 

®осповные характеристикн бортового латчнка текущего изображения такие, как 
размер поля зрения, чувствнтельность, чнсло элементов разрешения нзображення при 
его представлении в цифровом виде, и T. п.; 

• значения координат точкн визировачия при полученни текущего нзображення, 

На первом этапе подготовкн эталонного опнсания нз ЦММ удаляются те ее эле- 
менты, которые, возможно, не могут быть получены или локализованы на текущем 
изображении; для заданных значений пространственных координат точки наблюдення 
строится геометрическая модель наблюдаемой сцены в цифровой форме с нанесенной 
точкой прнцеливання. 

На втором этапе формируется описание эталонной моделн наблюдаемой сцены в 
форме программного файла, содержащего информацию о коордннатах коитуров объ- 
ектов и их высотах вместе с коордннатамн точки прицеливания и точки наведения. 
Объекты сложной формы, поверхности которых не могут быть представлены выпуклы- 
мн многоугольникамн, разбнваются на множество элементов с помощью специальной 
программы. 
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На третьем этапе оператором реализуется экранное нзображенне эталонной моде- 
ли с последующими операциями выделення наиболее ннформативных прямолннейных 
отрезков контуров объектов сцены — эталонных элементов. К таким элементам от- 
носятся те, которые должны с большой вероятностью присутствовать на текущем 
нзображенни, обладать достаточной длиной н обеспечивать уникальность формы 06- 
разованного нз ннх эталонного фрагмента — совокупности непосредственно геометрн- 
ческн связанных эталонных элементов, за счет их достаточного колнчества н разной 
орнентацин для обеспечения привязки по двум координатам плоскости кадра, Для 
объектов рассматрнваемых сцен указанным требованиям удовлетворяют в первую 
очередь горизонтальные линии крыш зданнй, верхние участкн вертнкальных линий 
боковых ребер стен этнх зданий, труб, граднрен, нефтяных емкостей и другнх no- 
строек, пересечения этих линий нт. п. Эти характерные черты объектов нзображения 
достаточно устойчивы в условнях нзменчивостн. 

Построенное таким образом эталонное нзображенне на четвертом этапе использу- 
ется для преобразования в текстовой файл, содержащий 

®описания эталонных элементов B внде ннформацин о прямолинейных отрезках 
контуров (координаты точек отрезка и ero орнентация); 

®описания эталонных фрагментов (коордннаты центра фрагмента и список вклю- 
ченных эталонных элементов); 

®описания эталонных групп (коордннаты центра и список включенных эталонных 
фрагментов), а также данные о взаимных положеннях н допусках на пространствен- 
ные связн эталонных фрагментов и групп. 

Устойчивость пространственных связей оценивается с учетом возможных нзмене- 
ннй значеннй ракурса внзнрования сцены, вызванных ошибкамн подготовкн ЦММ н 
ошибкамн определения значеннй точки внзнрования. 

Как уже отмечалось выше, форма представлення эталонного опнсання однозначно 
связана с типом реализованного в бортовой снстеме наведения алгоритма обнару- 
ження и локалнзацин объектов на наблюдаемой сцене. Это особенно относится к 
операцням формирования эталонного описання втором н третьем этапах. 

Поскольку нсходными даннымн прн построенин эталонного описання являются 
цифровые модели местности, рассмотрим основные особенности технологин построе- 
ния этнх моделей. 

Оставляя в стороне общне вопросы технологин построення цнфровых карт релье- 
фа местности (LIKP), являющихся составной частью цнфровых моделей местностн, 
остановимся лишь на рассмотрении особенностей технологни построения цифровых 
моделей заданной сцены и ее объектового состава (ОС). 

Входная информацня в этом случае нспользуется в виде космофотоснимков (КФС), 
а также магннтных носнтелей запнсей снгналов бортовых датчиков космических ап- 
паратов прн наблюдении заданных районов земной поверхности в видимом (ТВ), ин- 
фракрасном (ИК) и раднолокационном (РЛ) диапазонах электромагнитного спектра, 
работающих в сканнрующем режиме, В качестве носителей основной информации ис- 
пользуются детальные космофотоснимки заданных районов — кадровые с размером 
30 x 30KM, уточненные кадровые с размером кадра 10 x 10км или 5 x 5км, c разре- 
шением на местности A: 3м и я 1 м соответственно; а также панорамные с шириной 
наблюдаемой полосы земной поверхности 100 — 150 км. 

При полученин уточненных космо- и фотосннмков используется съемка земной по- 
верхностн с разных ракурсов и с временным сдвигом, что позволяет в итоге получнть 
набор стереонзображеннй заданной сцены. Полученная таким образом ннформацня 
о наблюдаемом районе земной поверхности дополняется информацней, получаемой 
с помощью сканирующих датчиков с разрешением 5-30 м и 1-2 м соответственно 
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для различных ракурсов визирования. Существенным дополнением к информации, 
получаемой при дистанционном зондировании заданных районов земиой поверхно- 
сти с помощью бортовой аппаратуры космических аппаратов, является использование 
созданиых и постоянно обновляемых каталогов отражательных (излучательных) ха- 
рактеристик типовых районов и типовых элементов объектового состава. 

Кроме того, широко используются также данные из каталога геометрических ха- 
рактеристик типовых элементов объектового состава: промышленных зданий, неф- 
техранилищ, труб, тепловых электростанций, трансформаторных подстанций, плотин 
гидроэлектростанций, сборочных производств и T. п., особенно их высотные размеры, 
информацию о которых далеко не всегда удается извлечь из космофотоснимков. 

С учетом суточной, сезонной и погодной изменчивости яркостных и геометри- 
ческих характеристик наблюдаемых районов земной поверхности и элементов объ- 
ектового состава, а также с использованием источников дополнительной информа- 
ции (каталогов отражающих и геометрических характеристик) удается определить 
условия проведения космофотосъемки (временные и ракурсные), а также минималь- 
но необходимое количество космофотоснимков одного и того же района. Критерием 
определения минимума потребных КФС является возможность выделения наиболее 
стабильных характерных геометрических признаков элементов объектового состава 
с вероятностью не менее 0,8, а также возможность определения направлений под- 
лета беспилотного маневренного летательного аппарата к заданному району земной 
поверхности, обеспечивающих наиболее эффективную обработку исходной ииформа- 
ции, 

Описанная выше совокупность исходных данных позволяет в комплексе подго- 
товки полетных заданий осуществить операции первичной обработки входной ин- 
формации: геодезическую «привязку» КФС, определение координат опорных точек и 
дешифрирование изображений заданного района местности, формирование моделей 
изменчивости яркостных и геометрическнх характеристик и т. д. 

Остановимся теперь на технологии вторичной обработки исходной информации. 

Основные задачи вторичной обработки исходной информации состоят в следую- 
щем: 

• уточнение значений координат опорных точек заданного района земной поверхно- 
сти с использованием цифровых карт рельефа местности (ЦКР); измерение значений 
трехмерных координат (плановых и высотных) элементов объектового состава с уче- 
том ракурсов визирования местности аппаратурой космофотосъемки и затененности 
отдельных элементов ОС при различном положении Солнца в момент проведения 
космофотосъемки: 

• выбор наиболее информативных участков земной поверхности в заданном pañ- 
оне для формирования полетного задания реализации траектории полета беспилот- 
ного маневренного летательного аппарата в горизонтальной плоскости; выделение 
стабильных характерных геометрических признаков элементов объектового состава 
с использованием построенной ранее модели изменчивости этих характеристик; 

• оцифровка прошедших указанные выше преобразования изображений заданного 
района земной поверхности и элементов его объектового состава; построение цифро- 
вого массива значений координат совокупности точек трехмерной модели местности 
(ЦММ). 

При решении задачи выбора наиболее информативных участков земной поверхно- 
сти и характерных геометрических признаков элементов объектового состава исполь- 
зуются преобразования, соответствующие алгоритмам обработки текущих изображе- 
ний, реализуемых в бортовой аппаратуре системы наведения беспилотного маневрен- 
ного летательного аппарата. 
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Например, при определении координат точек земной поверхности с помощью ал- 
горитмов сравнения эталонного и текущего изображений корреляционного типа кри- 
терием информативности выбранного направления подлета может служить условие 
превышения значения радиуса корреляции яркостного поля некоторого заданного зна- 


чения. 


Рис.7.1.1. Изображение местности с точной координатной привязкой обьектов 


Подводя нтог сказанному выше, перечнслим основные технические задачи, воз- 
никающие при обеспечении систем наведення беспилотных летательных аппаратов 
рассматриваемого класса эталонной информацией: 

® уменьшение ошибок целеуказания и увеличение разрешающей способностн бор- 
товых датчиков космических аппаратов, считывающих параметры яркостного (радио- 
локациониого и т. д.) поля, 

®снижение уровня систематических н случайных погрешностей алгоритмов при- 
ведения информации к плоскости сличения эталонного и текущего изображений; 

® разработка методов и алгоритмов пересчета характеристнк изображений, полу- 
ченных бортовой измерительной аппаратурой космическнх аппаратов, к условиям ирн- 
мепения бортовых сенсоров беспилотных маневренных летательных аппаратов: 

® создание алгоритмов предварительной обработки эталонных изображений, мини- 
мизирующих влияние изменчивости, геометрических и амплитудно-фазовых искаже- 
ний; 

® разработка принципов формирования эталонных изображений, а именно: 

— определение целесообразного уровня детализации исходной картографической 
информации для создания цифровых моделей местности; 
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— определения требуемого уровня соответствня данных топографических карт и 
результатов космо- и аэросъемки местности; 

— уточнение допустимого времени устаревания информации, используемой для по- 
строения цифровых моделей местности; 

— Уточнение каталогов отражательных свойств объектов и анализ их зависимости 
от сезона; 

— совершенствование методов прогнозирования отражательных свойств объектов; 

— совершенствование способов автоматизированного выделения контуров объек- 
тов и других характерных геометрических признаков на земной поверхности; 

® разработка методов создания обобщенных эталонных опнсаний (для различных 
диапазонов электромагнитного спектра) наземных целей, их классификации и опре- 
деления перечня характерных признаков. необходимых для локализации объектов; 

е разработка аппаратурных, алгоритмических и программных средств, обеспечи- 
вающих: 

— создание, хранение, обновление банка исходных картографических данных и 
эталонных описаний типовых объектов; 

— выбор информации из банка данных по запросам систем подготовки и хранения 
полетных заданий (ПЗ); 

— формироваиие адекватных критериев оценки информативности и надежности 
эталонных описаний; 

— автоматизацию подготовки ПЗ; 

® создание алгоритмов сжатия эталонной информации, а также средств ее накопле- 
ния и хранения (в том числе голографических) для записи ПЗ на бооту беспилотных 
летательных аппаратов и их самолетов-носителей. 


7.1.4. *Цифровая фотограмметрия и дистанционное зондирование. 

По современному определению Международного общества фотограмметрни и дн- 
стаиционного зондирования (ISPRS), «фотограмметрия и дистанционное зондирова- 
ние — это искусство, наука и технология получения надежной информации сред- 
ствами пеконтактной съемки и другими датчиками о Земле и ее окружающей среде, 
других физических объектах и процессах путем регистрацни, измерения, анализа H 
представления». Наибольшее применение фотограмметрия и дистанционное зонднро- 
вание находят в аэротопографин, при построении и обновлении топографических и 
кадастровых карт, а также при создании геоинформационных систем. 

Фотограмметрия родилась через 13 лет после изобретения фотографии. В 1852 
году французский инженер Эмме Лосседа для создания плана местности получил 
первые перспективные снимки Парижа. Съемка была проведена с воздушного шара. 
Позднее был сконструирован стереокомпаратор, который давал возможность рас- 
сматривать стереоскопически два перекрывающихся снимка, полученных с некоторой 
базы (некоторого расстояния). Эта база была названа базисом фотографирования, 
а перекрывающиеся изображения — стереопарой снимков. При рассматривании раз- 
дельно левым и правым глазом в сознании наблюдателя снимки сливаются в единый 
зрительный образ. Поэтому после изобретения стереокомпаратора появилась возмож- 
ность C высокой точностью измерять координаты и параллаксы точек снимков. Если 
при стереонаблюдении в поле зрения снимков ввести измерительные марки, то с 
их помощью можно измерить плоские координаты точек левого снимка и горизон- 
тальные параллаксы (разность измеренных абсцисс) и вертикальные параллаксы 
(разность измеренных ординат) идентичных точек. При наблюдении обе марки при их 
перемещении сливаются в одну пространственную марку. Такое совмещение марки 
в действительном пространстве с пересечением проектирующих лучей и позволяет 
вычислить пространственные координаты точки. Стереоскопическая модель может 


484 ТЕХНОЛОГИИ И ПРИЛОЖЕНИЯ МАШИННОГО ЗРЕНИЯ ГЛ. ғ 


быть создана, если снимки расположить таким образом, которое они занимали при 
съемке, T. е. выполнить процесс взаимного или внешнего ориентирования. Взаимное 
ориентшрование снимков — это процесс, с помощью которого определяется угловое 
положение снимков относительно друг друга и базиса фотографирования. В резуль- 
тате для одноименных точек снимков можно провести базисные плоскости, в которых 
лежат пересекающиеся проектнрующие лучи. Внешнее ориентирование снимков — 
это процесс, когда с помощью координат опорных точек и координат их изображений 
на снимках определяются линейное и угловое положение снимков в пространстве в 
заданной пространственной системе координат. 

В зависимости от решаемых задач начало координат пространственной системы и 
направление координатных осей выбирают, исходя из поставленных задач и удобства 
обработки. Положение снимков в пространстве определяется элементами внешнего 
ориентирования. Принято различать линейные элементы внешнего ориентирования 
и угловые. К элементам виешнего ориентирования относят положение центра про- 
ектирования съемочной камеры (или снимка, получениого в текущей момент вре- 
мени этой камерой). В пространственной системе координат каждый центр проекти- 
рования определяется тремя простраиствениыми координатами, а угловое положение 
пространственной системы снимка — тремя последовательными поворотами. После- 
довательность поворотов при аналитическом решении задач фотограмметрии особой 
роли не играет, их выбирают, исходя из установившейся традиции или исходя из 
удобства их определения. Лучи, проходящие через центр проектирования съемочной 
камеры и точки объекта съемки, называют проектирующими лучами. Совокупность 
проектирующих лучей, которые формируют снимок, называют связкой лучей. Глав- 
ный луч — луч, проходящий через центр проектирования перпендикулярно плоскости 
снимка. Обычно главный луч связки совпадает с главной оптической осью съемочной 
камеры. 

Кроме элементов внешнего ориентирования каждый снимок характеризуется эле- 
ментами внутреннего ориентирования. Точка пересечения главного луча с плоско- 
стью снимка называется главной точкой снимка. Расстояние от центра проектиро- 
вания до плоскости снимка называется фотограмметрическим фокусным рассто- 
янием — f. Отклонения проектирующих лучей от принятой модели проектирования 
носят название систематических ошибок. | 

Необходимо также отметить, что геодезическое обеспечение фотограмметриче- 
ских работ тесно связано с использованием единых систем координат. В нашей 
стране постановлением Правительства Российской Федерации от 28 июля 2000 года 
№ 568 установлены две единые государственные системы координат: 

e система геодезических координат 1995 года (CK-95) для использования при ocy- 
ществлении геодезических и картографических работ, начиная с | июля 2002 года; 

e геоцентрическая система координат «Параметры Земли 1990 года» (П3-90) — для 
использования в целях геодезического обеспечения орбитальных полетов и решения 
навигационных задач. 

Начиная с семидесятых годов прошлого века, с развитием средств вычислительной 
техники возникло большое количество дисциплин, связанных с обработкой изображе- 
ний. К таким дисциплинам относятся машииное или компьютерное зрение, машинная 
графика, распознавание образов и анализ сцеп, реконструкция изображений, цифро- 
вая фильтрация, зрение роботов, зрительное восприятие и ряд других. В основу этих 
дисциплин легли теория сигналов, вычислительная геометрия, теория информации. 
теория вероятности и математическая статистика, операционные методы, теория свя- 
зи и другие. Здесь под изображением понимаются уже не фотографии на бумажных 
носителях, многомерные цифровые сигналы, которые являются функциями многих 
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переменных. Фотограмметристы также были готовы к переходу на цифровые методы 
обработки, назвав новое направление цифровой фотограмметрией. 

В цифровой фотограмметрии имеют дело с цифровыми изображениями объектов, 
полученными цифровыми камерами кадровыми, сканерными, лазерными съемочными 
системами или путем преобразования аналогового изображения в цифровую форму. 
Цифровой снимок представляет собой матрицу, элементами которой являются чис- 
ла, характеризующие плотность или цвет элементарного участка снимаемого объекта 
[114], [115]. Аналитические решения фотограмметрических задач также претерпели 
некоторые изменения, но остались фундаментом и в цифровых методах обработки. 

Переход в фотограмметрии от аналоговых и аналитических методов к цифровым 
еще острее поставил перед фотограмметристами прежние проблемы по значительно- 
му сокращению полевых топографо-геодезических работ и автоматизации процессов 
обработки аэрокосмических и наземных снимков. Такие традиционные процессы как 
ортофототрансфориирование, построение цифровых моделей рельефа местности, 
автоматизация стереоотождествления и высокоточные измерения одноименных то- 
чек перекрывающихся аэрокосмических снимков, синтез изображений, полученных в 
разных спектральных диапазонах — были значительно усовершенствованы. Внесла 
свой вклад в цифровую фотограмметрию радиоэлектроника. Это относится к автома- 
тизированному определению координат центров проектирования съемочных камер с 
помощью СР5$-технологий и усовершенствованию инерциальных навигационных CU- 
стем (HHC), что привело к автоматизированному определению угловых элементов 
внешнего ориентирования, т.е. к полной автоматизации процесса определения всех 
элемеитов внешнего ориентирования снимков. 

В настоящее время ошибки определения координат с помощью GPS составляют 
от 2 до 8 M, a с помощью ГЛОНАСС — от 4 до 9м. При совместном использовании 
обеих навигационных систем точность определения координат на территории Европы 
уже на уровне 1-3 м. Планируется, что в 2011 г. точность определения координат с 
помощью ГЛОНАСС будет доведена до 2, 8 м. Проводятся разработки по определению 
в динамическом режнме координат с точностью до 0,1 м. Чтобы не потерять эти точ- 
ности, в фотограмметрии появился новый процесс — определения элементов выставки 
навигационной и другой аппаратуры в строительной системе координат носителя. 

Инерциальная система, устанавливаемая на платформе летального аппарата, слу- 
жит для определения его углового положения в пространстве, состоит из элементов 
для определения вертикали места, измерения и интегрирования ускорений, счетно- 
решающей части и указателей. Обычно различают три типа систем: геометрический, 
полуаналитический и аналитический. 

В системах первого типа блок гироскопов ориентируется и стабилизируется в инер- 
циальном пространстве, а платформа с акселерометрами для слежения за положени- 
ем местной вертикали ориентируется в горизонтальной плоскости. Измерения углов 
между платформой и блоком гироскопов определяют координаты места движущегося 
объекта. 

Акселерометры и гироскопы в системах второго типа располагаются на одной плат- 
форме, причем прецессия гироскопов (а за ними и поворот платформы) вызываются 
сигналами с акселерометров. Вне платформы расположено счетно-решающее устрой- 
ство, которое определяет координаты местоположения объекта. 

В инерциальных системах третьего, аналитического типа, и акселерометры, и rH- 
роскопы неподвижны в инерциальном пространстве. Координаты объекта получают- 
ся в счетио-решающем устройстве, в котором обрабатываются сигналы, снимаемые 
с акселерометров и устройств, определяющих поворот самого объекта относительно 
гироскопов и акселерометров. 
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Кадровый аэрокосмический цифровой снимок отличается высокой точностью изоб- 
ражения. Применяется для создания топографических карт земной поверхности. Фо- 
кальная плоскость съемочной камеры представляет собой откалиброваппую ПЗС- 
матрнцу. 

Рассмотрим теперь основные фотограмметрические процессы. 

Для опознавания и маркирование пиксельных координат опорных точек циф- 
рового снимка и их маркирования на экране дисплея с помощью абрисов или иных 
описаний геодезическими способами выполняется планово-высотная привязка аэро- 
космических снимков с определением пространственных координат опорных точек 
в заданной пространственной системе координат. После этого на перекрывающих- 
ся снимках выполняется маркирование и измерение координат точек сгущения. При 
этом снимки должны иметь продольное и поперечное перекрытие, Лространственная 
фототриангуляция проводится с целью значительного уменьшения дорогостоящих 
полевых геодезических работ. Обычно используются статистически строгие методы 
уравнивания блока или маршрута снимков. Перекрытие снимков вдоль маршрута 
около 60%, а на поперечных маршрутах — около 30%. При уравнивании используется 
способ наименьших квадратов. Условные уравнения — не линейные, а нормальные — 
имеют очень большой порядок. Задача решается итеративным методом. До уравни- 
вания все измеренные координаты должны быть приведены в цифровую форму, а 
до этого момента стереоопознавание и измерение точек проводится автоматизирован- 
ным способом. В настоящее время в мире создано огромное количество программ 
уравиивания. Наилучшим решением будет такое, при котором с высокой точностью 
будут определены координаты центров проектирования и угловые элементы, а так- 
же учтены почти все систематические ошибки, процесс фототриангуляции отпадет, и 
для каждого снимка будут известны элементы ориентирования. Хотя, вообще говоря. 
все систематические ошибки снимков, видимо, никогда не будут до конца устране- 
ны, В виде коэффициентов полиномов они еще долго будут играть роль в процессах 
самокалибровки и контроля качества выполненных работ. 

Следующим этапом работ является измерение по перекрывающимся снимкам пик- 
сельных координат идентичных точек, преобразование координат этих точек в циф- 
ровую форму, решение задачи прямых многократных засечек в ортогональной или 
другой картографической проекции, построение триангуляции Делоне с отбраковкой 
грубых измереннй, регулярной сетки узлов с характернымн точками рельефа и созда- 
ние цифровой модели рельефа (ЦМР). Исходной информацией для решения задачн 
прямых фотограмметрических засечек являются элементы внешнего ориентирования 
используемых снимков. 

ЦМР — средство цифрового представления трехмерных пространственных объек- 
тов (поверхностей, рельефа местности) в внде трехмерных данных как совокупиости 
высот илн отметок глубин и нных значений апплнкат (координаты Z) в узлах pe- 
гулярной сетки с образованием нерегулярной сети (TIN) как совокупность данных 
записей горизонталей (нзогнпс, изобат) или нных нзолиний. Источниками исходных 
данных для создания ЦМР служат топографические карты, аэроснимки, космические 
снимки, данные альтиметрической съемки и т.д. ЦМР — дискретная модель пред- 
ставления пространственных поверхностей в форме, удобной для обработки, хранения 
и представления в информационных системах [114], [115]. 

Ортотрансформированные изображения могут использоваться в качестве фоно- 
вого слоя ГИС нли для оцифровки и обновления карт. Сканнрованный аэрофотосни- 
мок или спутниковое нзображение трансформируются цифровыми методамн в орто- 
графическую проекцию путем обработкн каждого пнксела при помощи уравнений 
пространственной фотограмметрической засечкн. Эта обработка требует в качестве 
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исходных дачных либо координат опорных точек (данных и/или вычислеиных Ny- 
тем уравниваннн сетн) и координат соответствующих точек па изображении, либо 
параметров внешнего ориентирования, а также информацни о ЦМР. 

Цифровой ортофотоснимок — это ориентированное в системе координат местио- 
сти изображение, созданное по наклонному фотоснимку или другому изображению 
дистанционного зондирования, на котором устранены смещения, вызванные ориента- 
цией датчика и рельефом местности. Материалами съемки при этом непосредственпо 
нвляются цифровые модели рельефа местности и цифровые карты в горизонталях. В 
качестве текстуры используют снимки с известными элементами внешнего ориенти- 
рования. 

Ортофотоснимки являются важной продукцией для множества задач картографи- 
рования, управления и мониторинга. Помимо данных в виде аэро- или спутниковых 
снимков, системы опорных точек и ЦМР для получения фотопланов необходима со- 
ответствующая специализированная система [114], [115]. В качестве примера можно 
привести систему lmageStation OrthoPro. Основные характеристики этой системы и 
технологическая схема производства ортофотопродукции опнсаны в [408]. 

В настоящее время практически решен и вопрос создания высокоточных цифровых 
топографических аэрокосмических съемочных камер. В первую очередь это относится 
к цифровой съемочной системе ОМС, созданной фирмой Carl Zeiss/Intergraph (2/1 
Imaging) [406], и самолетному цифровому датчику изображений ADS40, созданному 
LH Systems (Швейцария) и немецким аэрокосмическим центром DLR [407]. 

При космической съемке геометрия съемки различается по расположению ска- 
неров относительно орбитальной системы координат и относительно горизонтальной 
плоскости участка. К цифровым методам применяемой в настоящее время съемки 
относится и сканерная съемка с применением ПЗС-линеек. Элементы ПЗС-линейки 
(пикселы) расположены на прямой с заданным одинаковым шагом в фокальной плос- 
кости объектива съемочной камеры. Последовательное соединение строк, полученных 
в текущие моменты времени по трассе полета носителя, представляет собой изобра- 
жение местности, которое будем называть сканерной орбитальной панорамой. С 
целью облегчения камеральной обработки панорама разбивается на условные кадры 
(сканерный снимок). В ряде случаев с целью уменьшения накопления геометрических 
искажений условный кадр дополнительно разбивается на отдельные сегменты. 

Каждое изображение строки при этом подчиняется закону центрального проекти- 
рования и образует плоскую систему координат снимка с началом координат в главной 
точке снимка. В пределе при сплошном последовательном расположении ПЗС-линеек 
в фокальной плоскости цифровой камеры образуется кадровый снимок центрального 
проектирования с ПЗС-матрицей. Заметим, что для получения хорошего фотометри- 
ческого качества при сканерной съемке наилучшим вариантом будет расположение 
ПЗС-линейки в средней части кадра фокальной плоскости. 

В ряде случаев однострочные и многострочные сканеры выпускают с состыкован- 
ными параллельно двумя или тремя линейками, что обеспечивает лучшее опознавание 
объектов. При этом каждая фирма-разработчик выбирает свой вариант конструкции, 
который считает более предпочтительным для решения тех или иных задач. 

Следует различать: 

® съемку одной съемочной камерой, жестко установленной на носителе при посто- 
янном заданном угловом положении в пространстве; 

€ съемки одной съемочной камерой с последовательным заданным изменением ee 
углового положения в пространстве во время съемки; 

e одновременные съемки несколькими съемочными камерами, установленными на 
носителе в заданных угловых положениях в пространстве во время съемки; 
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® одновременные съемки несколькими съемочными камерами, установленными на 
объекте с последовательным заданным изменением их углового положения в про- 
странстве во время съемки. 

Кроме положения съемочных камер на объекте будем также различать и их рас- 
положение в пространстве самих носителей: 

® постоянное угловое положение носителя при съемке; 

® отслеживание центральным лучом сканирования местной вертикали; 

® отслеживание центральным лучом сканирования заданной точки местности; 

® произвольное положение носителя в пространстве. 

На практике используется большинство перечисленных схем съемки. 

По геометрии формирования также возможны различные варианты сканерных съе- 
мок. Наиболее типичные: 

e Съемка с помощью оптико-механических сканеров — отдельные вращающие зер- 
кала или активные элементы либо линейки с небольшим числом элементов; 

® Сканерная съемка одной линейкой ПЗС; 

® Сканерная съемка двумя линейками ПЗС — при этом для возможности стерео- 
обработки съемка выполняется с перекрытием, либо конвергентно с одной трассы. 
либо с двух трасс с направлением съемки в правую и левую сторону; 

® Сканерная съемка тремя линейками ПЗС. 

При трехсканерной синхронной съемке одна линейка развернута для съемки по 
местной вертикали, а две другие — в сторону движения носителя в противоположную 
сторону. При этом продольные углы их наклона относительно плоскости сканирования 
для средней линейки имеют противоположные по знаку углы и постоянные значения 
по величине. Синхронная съемка тремя линейками ПЗС позволяет формировать кад- 
ровые снимки центрального проектирования, состоящие всего из трех разнесенных 
строк, но относящиеся к одному моменту времени. 

Применение цифровых способов съемки и обработки полученных материалов спо- 
собствовало созданию съемочного оборудования, основанного на новых физических 
принципах. Это в первую очередь относится к созданию лазерных съемочных систем 
[118]. Лазерные съемочные системы представляют собой комплекс приборов, способ- 
ных практически в реальном масштабе времени обработать съемочный материал. Этот 
комплекс включает в себя лазерный З)-сканер, бортовую СР5$-антенну, инерциаль- 
ную систему, цифровую аэросъемочную камеру и другое вспомогательное оборудо- 
вание. Вся аппаратура жестко закреплена на летательном аппарате. Лазерный ска- 
нер — это активное средство дистанционного зондирования, оно позволяет с помощью 
дальности и угла отклонения лазерного луча от вертикального положения получить 
облако точек, отраженных от объекта сигналов. СР$-антенна позволяет определить 
пространственное положение ее центра излучения, инерциальная система — угловое 
положение каждого сканирующего луча в пространстве, а аэросъемочная камера — 
получить изображение местности или интересующего объекта. 

В ряде комплексов для получения облака пространственных точек на поверхности 
объекта часто используется принцип оптико-механического сканирования: с помощью 
вращающего зеркала и движения носителя. Кроме вращающего зеркала в ряде случа- 
ев используют вращающие призмы, оптический клин и другие устройства. Источни- 
ком излучения служит полупроводниковый лазер ближнего инфракрасного диапазона. 
Лазер работает в импульсном режиме. Временной интервал от момента излучения до 
получения отраженного от объекта сигнала позволяет определить наклонную даль- 
ность до объекта г. Если на пути луча встречаются другие пробиваемые лазерным 
лучом объекты, то от них также происходит частичное отражение сигналов, что поз- 
воляет и до этих объектов определять наклонные дальности. Направление лазерного 
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визирного луча от одного излученного импульса определяется с помощью вращающе- 
гося зеркала в фиксированный момент времени углом сканирования в строительной 
системе координат лазерного устройства. Угол сканирования и дальность позволяют 
вычислить вектор пространственных координат точки в заданной системе координат 
сканера, в которой фиксируются углы отклонения лазерного луча от исходного поло- 
жения. В результате дистанционного зондирования для каждого лазерного измерения 
в фиксированные моменты времени определяются дальность до отраженной точки и 
шесть элементов внешнего ориентирования в геоцентрической системе координат. 

Рассмотрим ряд воздушных лазерных сканерных систем, 

Бортовая лазерная сканирующая система геодезического класса FALCON III. 
Основное назначение бортового комплекса FALCON 111, разработанного немецкой 
фирмой TopoSys GmbH является получение ЦМР, UMM и цифровых ортофотопла- 
нов. Точность измерения дальиостей в этом комплексе составляет менес 2 см. Система 
использует принцип веерного сканирования. Направления лазерных лучей относи- 
тельно друг друга в этой системе фиксированы в диапазоне 20 градусов. За счет 
большого темпа выдачи лазерных импульсов строится модель поверхности с шагом 
0.24 м. С расстояния 0.5 м. лазерный луч безопасен для зрения. Калибровка блоков 
комплекса на жесткой платформе проводится в заводских условиях. Спектрозональ- 
ный линейный сканер комплекса получает цифровые изображения в четырех зонах 
спектра: красном, зеленом, синем и ближнем инфракрасном. Это позволяет получать 
реальное и в синтезированных цветах. Синтезированный снимок позволяет также 
вычленять области, покрытые растительностью 

Самолетная лазерная система картографирования ALTM 3100 компании Optech. 
Это самая распространенная в России система. Лазерный луч ALTM 3100 безопасен 
для зрения на расстоянии 80 метров. Метод сканирования — осцилирующее зеркало. 
Максимальный угол сканирования 5() градусов. Точность определения углового no- 
ложения лазерного луча 0,005-0,008 градуса, точность определения высоты 15см — 
при высоте до 1200 м и 35см — при высоте до 3000 м , точность планового положения 
1/2000 от высоты (в метрах). Разрешение по дальности — 1 см. Сканирование поверх- 
ности выполняется с частотой 1 кГц, что позволяет провести 100000 измерений в сек. 
Аэросъемка выполняется камерой Rollei AIC Modular LS. 

Воздушная лазерная батиметрическая система SHOALS 1000T (Optch. Inc., Ka- 
нада) Система предназначена для одновременного картографирования береговой зоны 
мелководья до 50 метров в чистой воде и до 40 метров на мелководье. Дешифрирова- 
нию поддаются подводные объекты до 2 метров. Высота воздушной съемки 200-400 
метров. Угол сканирования 20 градусов. Система совместима с гиперспектральной 
камерой. 

Получили дальнейшее развитие и радиолокационные станции (РЛС) с синтези- 
рованной апертурой (ЗАВ) |409]. Эти радиолокационные станции являются актив- 
ными системами зондирования, которые обеспечивают свой собственный источник 
подсвета и могут получать изображения в дневное и ночное время суток. РЛС ЗАВ 
являются когерентными системами, которые сохраняют фазу и величину каждого от- 
раженного сигнала. Разрешающая способность РЛС SAR от 3m до 100m с шириной 
полосы захвата от 1км до 500 км. При этом разрешение РЛС ЗАВ теоретически не 
зависит от высоты размещения РЛС и дальности цели. 

Некоторые РЛС обладают возможностями многочастотности и множественной по- 
лярнзации снгналов, которые позволяют характеризовать целый ряд различных типов 
объектов и поверхностей. Работа на более длинных радиоволнах Р-диапазона (75 см) 
и І-диапазона (24см) обеспечивает сильные отражеиные сигналы главным образом 
для более крупных объектов и особенностей земной поверхности. Эти диапазоны 
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позволяют также проникать радиоволнам сквозь снежный и растительный покров и. 
при определенных условиях, через песок и почву. Более короткие волны С’-Лиапазона 
(5,6cM) и Х-диапазона (3cM) полезны для выявления границ малых объектов мест- 
ности. Кроме того, излучение С- и Х-диапазонов имеет тенденцию более сильно 
отражаться растительным и снежным покровами, а также почвой, что позволяет ха- 
рактеризовать эти типы поверхностей. 

В каждом диапазоне дальнейшее выявление более мелких объектов местности 
обеспечивается с помощью комбинаций различных типов поляризации сигналов. [7o- 
добные типы поляризации — горизонтальная поляризация излученного сигнала и 
горизонтальная поляризация принятого сигнала (НН) или вертикальная поляризация 
излученного сигнала и вертикальная поляризация принятого сигнала (VV) — имеют 
тенденцию обнаруживать обратное рассеивание радиоволн от объектов, ориентиро- 
ванных в TOM же самом направлении, что и падающая волна. Поперечные типы 
поляризации — горизонтальная поляризация излучениого сигиала и вертикальная 
поляризация принятого сигнала (НУ) или вертикальная поляризация излученного 
сигнала и горизонтальная поляризация принятого сигнала (УН) — обнаруживают 
отраженные сигналы, образующиеся в результате множественного рассеивания, KO- 
торое деполяризуст эпергию, как например, в случае покрова редколесий, или в pe- 
зультате множественного радиоэха, как например, в случае сигналов, отраженных 
от земной поверхности и стволов деревьев. Подобные типы поляризации имеют тен- 
денцию к обеспечению самых сильных отраженных сигналов обратного рассеивания. 
тогда как поперечные поляризации имеют тенденцию к меньшему влиянию угла паде- 
ния радиолуча и изменениям уклона местности. Полный поляриметрический режим 
позволяет синтезировать любую комбинацию типов поляризации, включая круговую 
поляризацию. Следовательно, имея возможности многочастотности и множественной 
поляризации, MOKIO подобрать сочетания этих параметров. позволяющие получать 
изображения по данному сюжету съемки с усилением различных типов и объектов 
поверхности. 

РЛС работают также в СВЧ-области электромагнитного спектра. Более длинные 
волны СВЧ-эпергии могут проникать сквозь облачный покров, туман и дождь, что 
позволяет РЛС работать в неблагоприятных метеорологических условиях, которые 
исключают использование систем наблюдения в видимой и ИК-областей. 

Сегодня РЛС можно отнести к наиболее распространенным цифровым съемочным 
системам. РЛС SAR, имея с высокое разрешение, применяются в геологическом и 
топографическом картографировании. Своевременный мониторинг состояния моря и 
ледовой обстановки в интересах мореходства, детальная характеристика биомассы — 
также задачи РЛС. Они устанавливаются как на воздушных, так и на космических 
носителях, обеспечивая покрытие съемкой земной поверхности как в региональном. 
так и в глобальном масштабе на периодической основе или по запросам. 

После успешного применения раднолокаторов бокового обзора с синтезированиой 
апертурой для высокоточного определения высот по радиолокационным стереопарам 
был разработан также интерферометрический способ. Этот способ использует раз- 
ность фаз сигналов с двух расположенных на некотором расстоянии радиолокаторов. 
Радиоинтерферометрия применяется как в самолетном, так и в космическом вариан- 
тах. 

Для проведения полноценной автоматизированной обработки аэрокосмических 
снимков, как правило, создаются специализированные цифровые фотограмметриче- 
ские станции (ЦФС) [116]. Под цифровой фотограмметрической системой (или стан- 
цией) понимается совокупность программных и технических средств, связанных об- 
щей функцией и обеспечивающих выполнение комплекса технологических процессов 


74 АВИАЦИОННЫЕ И КОСМИЧЕСКИЕ ПРИЛОЖЕНИЯ 491 


и операций, необходимых для получения аэрофототопографической съемки в цифро- 
вом виде по цифровым изображениям. Под продукцией, получаемой непосредственно 
от цифровой фотограмметрической системы, будем понимать цифровой ортофотоплан 
и векторную модель контуров снятых объектов |116]. 

Обработка цифровых растровых спимков обычно производится в стереоскопиче- 
ском режиме с использованием специальных средств: 30-мониторов, обычных мони- 
торов со стереоскопической насадкой или обычных мониторов со стереоскопическимн 
очками. Последний способ наиболее часто применяется в реальных производствен- 
ных системах. так как меньше ограничивает движения оператора в пространстве и, 
при этом, дает хороший стереоэффект в большом диапазоне точек пространства пе- 
ред монитором. Для демонстрационных целей и на уровне полупрофессионального 
использования также применяется анаглифический метод стерео с цветовым разделе- 
нием стереоизображений. 

Автоматизированные процессы геометрических преобразований и дешифрирова- 
ния образуют костяк ПО цифровых фотогремметрических станций. В частности, при 
установлении связи координат точек изображения с пространственными объектами 
используются проективные преобразования. Это ускоряет решение, HO часто ие со- 
ответствует реальному процессу, поскольку требуст геометрически идеальной модели 
формирования изображения, чего практически не встречается на практике. Поэтому 
в фотограмметрии проективные преобразования в настоящее время, как гравило, на- 
ходят применение лишь на этапе определения начального приближения при решении 
задачи. 

Кроме того, как и в машинной графике, часто возникают задачи восполнения 
данных, когда через несколько точек следует провести кривую или поверхность — 
это классическая задача интерполяции и частый случай аппроксимации. Для решения 
таких задач используются интерполяция -сплайнами, апироксимация кривыми Безье 
и ряд других методов. В фотограмметрии аналогичными способами решаются такие 
специфические задачи, как укладка горизонталей, построение гракиц однотипных 
областей, показываемых на картах, и т. д. 

В связи с формированием видеомоделей объектов для построения перспективных 
снимков по этим моделям в фотограмметрии благодаря вычислительной геометрии 
возник и новый процесс — триангуляция Делоие. Теперь появилась возможность 
строить перспективные снимки, наблюдаемые из заданных точек пространства и под 
заданным ракурсом, Задача по устранению «мертвых пространств» успешио решена с 
привлечением усилий геометров и специалистов по машинной графике. Также реше- 
на и задача удаления невидимых поверхностей, то есть нахождения преобразования. 
отображающего множество трехмерных объектов на множество их видимых частей в 
двумерном пространстве. 

Проблема автоматизации обнаружения и дешифрирования объектов оказалась го- 
раздо сложнее задачи автоматизации процесса геометрических преобразований, По- 
этому успехов здесь меньше. Большой вклад здесь внесло компьютерное зрение. B 
современной цифровой фотограмметрии используются различные способы выделения 
однородных областей, отрезков и их атрибутов (по которым, например, дешифриру- 
ются отдельные здания прямоугольной формы, дороги и др.), сглаживание кривых. 
выделение окружностей, построение карт линсаментов, маркированных объектов, Bbl- 
деление краев и углов, границы теней и т, д. Цветные и многоспектральные снимки 
позволяют выделять растительность, водоемы, искусственные объекты и др. Геомет- 
рическими процессами здесь являются интерлоляция и аппроксимация кривых и NO- 
верхпостей. 
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Основной научной проблемой в данной области сегодня является усовершенствова- 
ние алгоритмов и программного обеспечения цифровых фотограмметрических станций 
и внедрение в производство технологий, основанных на современных цифровых ме- 
тодах обработки аэрокосмических снимков. Прнменение цифровых способов съемки 
и обработки аэрокосмических снимков, включая и построение видеомоделей участ- 
ков местности, требует использования и новых подходов к качественной и количе- 
ственной оценке разрабатываемых съемочных датчиков, теорий и методов решения 
фотограмметрических задач. Практическим работам с новыми технологиями здесь 
должны предшествовать исследования, позволяющие проверять правильиость пред- 
лагаемых решений, оценивать работоспособность созданных программных продуктов, 
получать надежные результаты по оценке точности и давать рекомендации по при- 
менению созданных программных продуктов и технологий. Большое внимание также 
должно быть уделено и синтезу видеоинформации, полученной с разных датчиковых 
систем в разных диапазонах спектра, a также разработке общей системы парамет- 
ров для этих систем в части их стандартизации при выполнении фотометрнческой и 
геометрической калибровки. 


7.1.5. Автоматизированная система обработки данных аэрокосмической съем- 
ки, Разработанный в ГосНИИАС набор методов, алгоритмов и программных средств 
построения 30-описания сцены и методов обнаружения объектов позволил создать aB- 
томатизированные средства обработки данных отечественной аэрокосмической съем- 
ки для лостроения «виртуальных» моделей реальных территорий. Для этого был спро- 
ектирован и реализован программно-алгоритмический пакет «Z-Space», [87], [269], 
обеспечивающий: 

® быструю генерацию цифровых моделей рельефа (ЦМР) в виде регулярной мат- 
рицы высот по стереопарам космических снимков или аэроснимков; 

® создание цифровых ортофотопланов; 

€ съемку векторных контуров по стереопарам и ортофото; 

® визуализацию элементов рельефа с использованием разнообразных возможно- 
стей компьютерной графики. 

В составе пакета реализованы как стандартные фотограмметрические процеду- 
ры ориентирования, геометрической и радиометрической коррекции снимков, так и 
повые оригинальные процедуры автоматического вылеления объектного состава. В 
частности, для решения задач реконструкции поверхностей и обнаружения трехмер- 
ных структур предложен вычислительно эффективный метод поиска соответствующих 
(сопряженных) точек стереопары изображений трехмерной сцены с учетом априорной 
информации об их приблизительном положении [263]. Особенность разработанного 
метода стереоотождествления заключается в том, что соответственные точки находят- 
ся с максимальной (субпиксельной) точностью и снабжаются коэффициентом надеж- 
ности стереоотождествления. Алгоритм стереоотождествления состоит из следующих 
этапов: 

1) выбор наиболее информативных участков изображений; 

2) стереоотождествление с пиксельной точностью; 

3) стереоотождествление с субпиксельной точностью (субпиксельное уточнение). 

При этом большие области поиска ограничиваются за счет применения пирамиды 
изображений, использования эпиполярной геометрии и априорного оценивания днана- 
зона высоты рельефа видимой сцены. Выбор уникальных эталонов осуществляется на 
основе анализа информативности фрагментов изображений, тем самым преодолевает- 
ся проблема сходства близлежащих эталонов. Трудности в выборе начального при- 
ближения положения соответствующих образов преодолеваются за счет применения 
иерархической стратегии построения карты диспаратностей. Геометрические искаже- 
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ния образов устраняются геометрическими преобразованиями изображений. Яркост- 
ные искажения образов устраняются явным введением параметров искажений и их 
оценкой. Ложное отождествленне (аномальные ошнбки) выявляется с помощью ана- 
лиза формы корреляционной функции. Для решения задачи выбора информативных 
участков изображений разработан новый статистический метод определения инфор- 
мативности на основе анализа статистических свойств шума по оптическому клину, 
который представляет собой изображение с плавным нелинейным изменением ярко- 
сти. 

На рис. 7.1.2 представлен вид окна визуализации ЦМР в пакете «Z-Space» при 
работе с космическими фотоснимками. 


Рис, 7.1.2. Интерфейс пользователя программного пакета «Z-space» 


На рис. 7.1.3 показана типовая последовательность обработки данных авиационной 
съемки для получения JD модели местности C объектовым составом с помощью паке- 
Ta «Z-space». Ha рис. 7.1.4 показан пример синтеза модели «Каир» (Египет) по данным 
отечественной космической съемки камерами TK350 (стереоданные) и KBP1000 (па- 
норамная съемка), а на рис. 7.1.5 — комбинация моделей, построенных по данным 
космических (общий план) и авиационных снимков (детали аэропорта). 

Апробация разработанных технологий проводилась на комплексах полунатурного 
моделирования авиационных приложений в ГосНИИАС. Анализ показал, что сроки 
подготовки полетного задания для перспективных самолетов могут быть значительно 
сокращены. 
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Рис. 7.1.3. Последовательность обработки данных в пакете eZ-Space» 


Рис. 7.1.4. Результат моделирования. Канр. Гиза, район пирамид 
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Рис. 7.1.5. Результат моделирования. Аэропорт в горах 


7.1.6. *Полуавтоматическое выделение протяженных объектов. Задачи авто- 
матического дешифрирования и реконструкции объектов местности искусственного и 
естественного происхождения принадлежат к числу наиболее наукоемких задач фо- 
тограмметрии и днстанционного зондирования. Во многих областях здесь имеются 
несомненные успехи, однако задача полной автоматизации процесса дешифрирования 
пока далека от завершения. Причины этого носят объективный характер и связаны с 
тем, что особенности исходного материала часто приводят к некорректным математи- 
ческим задачам. Необходимость регуляризации в этом случае практически означает 
присутствие человека-оператора, вносящего в интерактивном режнме информацию, 
необходимую для успешного завершения алгоритма. Этим обусловлен интерес к раз- 
работке высокопроизводительных полуавтоматических алгоритмов дешифрировання, 
в частности, алгоритмов выделения протяженных линейных объектов. 

Полуавтоматические алгоритмы выделения линейных объектов на аэро- и космо- 
снимках разрабатываются уже много лет различными исследователями [352]- [354]. 
Типичными представителями линейных объектов являются дороги (илн края дорог) 
и береговые линии. Большинство попыток выделения объектов используют процессы 
«низкого уровня», основанные на выделении радиометрических характеристик изоб- 
ражения. К ним относятся алгоритмы выделения краевых точек, так как линейные 
объекты обладают определенными яркостными особенностями на общем фоне. Затем 
следуют процедуры для связывания выделенных краевых точек в линейные объекты. 

Описание линейных объектов с помощью снейков на фотоснимках использует ин- 
терактивные методы с заданием начального приближения и основано на принципе 
минимизации энергии. Fua и Leclerc утверждают, что использование снейков имеет 
два преимущества: геометрические особенности используются непосредственно в про- 
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цессе поиска, и информация о краях суммируется вдоль всей кривой. Таким образом. 
метод использует структуру объекта. 

Для описания кривых нспользуются В-сплайны. Преимущества сплайнов в том. 
что они являются кусочно-гладкимн полиномамн н сохраняют непрерывность между 
соседними кусками. Кроме того, ошнбка в положенни одного узла является локальной. 
т. к. ее влияние резко падает при переходе к более отдаленным узлам. 

Основой метода является минимизация общей энергии. Вводится функционал 
E(v) от кривой v(t), заданной параметрически (v(t) = (X(t), Y (t))), который явля- 
ется суммой энергий яркостных особенностей точек, через которые проходит сплайн. 
и интегральной кривизны сплайна 


tk 


EQ)» (Eev) + 600) + Ett vlde, 


to 


где внутренняя или геометрическая энергия Eg отражает геометрические свойства 
объекта. Фотометрическая или внешняя энергия E, характеризует яркостные харак- 
теристики изображения, по которым проходит снейк. Контрольная энергия Ee onpe- 
деляет граничные условия и зависит от расстояния кривой V(t) от начальной крнвой 
"vo(t). Ищется минимум функционала в районе узловых точек, нанесенных операто- 
ром. 

Геометрическая энергия характеризует кривизну кривой и основана на первой и 
второй производных кривой. В работах [354] предложена следующая формула: 


Eg = ођу, (t) + Blve(t)l?, 


где хи В — коэффициенты, определяющие соотношение влияния геометрической и 
фотометрической энергии. 

Фотометрическая энергия E, характеризует степень близости к краевым точкам. 

Задание начального приближения. Для начала работы алгоритма оператор дол- 
жен задать приближенное начальное положение узлов линии. Через заданные узлы 
проводится сплайн, интервал между соседними узлами делится на заданное число 
кусков (например, на 10 участков), и все вновь полученные узлы используются в 
оптимизации. 

Прн задании оператором начального приближения может включаться режим уточ- 
нения положения по ближайшим краевым точкам. После задания оператором очеред- 
ного узла линии в заданной области узла стронтся фотометрическая матрица, и C ее 
использованием точка перемещается к ближайшему краю. После задания оператором 
всех узлов построенная линия будет проходнть через краевые точки. Поэтому при 
оптимизации первый шаг итерации опускается. 

Полуавтоматическое выделение линии с прогнозированием следующего ша- 
га, В этом режнме оператор задает начальное прнближение в виде двух первых сег- 
мептов ломаной линии (три узла). На очередном шаге алгоритм по текущему узлу и 
двум предыдущим экстраполирует положение следующего узла и затем уточияет по- 
ложение всех узлов с помощью описанной технологии снейков. Величина шага между 
узлами определяется по трем первоначальным и влияет на скорость работы и веро- 
ятиость сбоя алгоритма. При маленьком шаге возрастает время работы алгоритма. 
Использование большого шага может привести к большой ошибке экстраполяции на 
участке с сильно меняющейся кривизной и к расхождению процедуры оптимизации. В 
любой момент оператор может приостановить работу программы, уточнить положения 
последиих узлов и снова запустить процедуру. При выделении объектов значительной 
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протяжекности число узлов может доходить до нескольких сотен. Это приводит к со- 
зданию матриц и решению систем больших размерностей. Поэтому на каждом шаге 
процедуры оптимизации используются только 5 последних узлов. Экспериментально 
проверено, что предыдущие узлы уже занимают оптимальное положение. Финальный 
сплайн проходит через все узлы. 

На рис. 7.1.6 показан пример выделения дороги на аэрофотоснимке. На рис. 7.1.7 
демонстрируется пример выделения береговой линии на космофотоснимке. 


Рис. 7.1.6. Начальное и конечное положения прослежн- Рис. 7.1.7. Результат выделения берего- 
вания дороги на аэрофотоспимке вой линии на космофотоснимке 


7.1.7. *Обработка и комплеисирование многоспектральных видеоданных. Как 
в процессе функционирования автопомной системы машинного зрения, так и в pa- 
боте человека-оператора автоматизированной системы управления, многие проблемы 
возникают вследствие естественной низкой различимости объектов на оптическом 
изображении (дождь, туман и т. д.), либо возможного присутствия различных до- 
полиительных помех (маскировка, пиротехнические средства, прожекторы и т, п.), 
Значительную роль в снижении характеристик обнаружения играют также шумо- 
вые компоненты сигналов, образующиеся из-за особенностей применяемых датчиков 
и неидеальности каналов передачи данных, Большинство разработчиков перспектив- 
ных систем управления ЛА видят основной путь борьбы с этой группой проблем в 
совместном использовании датчиков различной физической природы(ДРФП), 

Изображения, получаемые от различных типов двумерных датчиков, имеют свои 
характерные яркостно-геометрические особенности, которые обусловлены как физи- 
кой формирования самого изображения, так и характеристиками оптико-электронных 
трактов. Данные особенности в значительной степени определяют выбор алгоритмов 
предварительной обработки и распознавания. Так, существенные сложности при об- 
работке изображений в оптическом диапазоне представляют затемненные участки, на 
которых теряют эффективность локальные и градиентные алгоритмы, В то же время, 
изображение в ИК-диапазоне обладает свойством отсутствия теней, что дает воз- 
можность выделить тени на оптическом изображении в случае совместной обработки 
изображений, получаемых or ТВ и ИК-датчиков, Изображения, получаемые B милли- 
метровом диапазоне, характеризуются хорошим качеством в условиях дождя, тумана, 
облачности, однако геометрические размеры объектов сцены на таких изображениях 
значительно отличаются от действительных. Таким образом, комплексная обработка 
изображений в различных спектральных диапазонах предоставляет дополнительные 
возможности при автоматизации обработки и распознавания, 
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В табл, 7.1.1 обобщаются основные характеристики и наиболее известные при- 
знаки восьми типов двумерных датчиков, обладающих существенной разделительной 
способностью по отношению к типовым объектам интереса ЛА. Все перечисленные 
типы датчиков могут практически использоваться при решении задач управления и 
выпускаются серийно по существующим технологиям, 


Таблица 7.1.1. 


иых 


Тепловизкониый е 2D-renaoBoe изображение | е форма, max/min эмиссия, количество 
и расположение горячих пятеи. окруже- 
ние (среда) 


Радар мнллиметрово» | е20-отражеиный профиль | е распределение и степеиь протяжеиио- 
го днапазона eID или 2р0-поляризациои- | сти рассеивателей 
иые изображения е четиый и иечетиый иомер и располо- 
e 2D-noze скоростей жение упругих рассенвателей 
е частоты пульсации и ширина пучка 
рассеивания 


Лазерный локатор e З)-изображение e размер, 30-форма, расположение объ- 
® доплеровская модуляция | ектов 
(вибрация) e пульсация, структуриая н поверхиост- 
e 2р-поле скоростей ная частоты 
e простраиствеииое распределение ABH- 


жущихся участков сцены 


Локатор с синтетиче- | ө 20-изображенне • размер и расположеине объектоз 
ским раскрывом 


Телевизиоиный e2D-noayrouoBoe видео- | ® форма, размеры, текстура, виутреиняя 
изображение структура объектов, окружение 


Микроволиовый радар | е доплеровская модуляция скорость. частота пульсации и шири: 
•20-изображеине на пучка 
• размер, формат, количество и распо- 
ложеиие объектов 


Акустический датчик | ө отраженный звуковой | е частоты пульсации, гармоники отио- 
снгнал шения частот, источинкн специфиче: 
ского шума 


Иитерберометр е спектральная и времениая | е частота, частотиая модуляция, ампли: 
зависимость микроволиово- | тудпая модуляция, продолжительность 
го излучеиня пульсации, интервалы пульсации 


Для экспериментальной съемки ДРФП в ГосНИИАС был создан ряд специальных 
аппаратно-программных стендов, Ниже даны примеры различных многоспектраль- 
ных регистраций, На рис. 7.1.8 представлены ТВ, ЛЛ и ИК-регистрации движуще- 
гося объекта на малой дальности (150 м). Видна надежная селекция объекта на ЛЛ- 
изображении, а также яркое пятно от выхлопных газов двигателя в ИК-днапазоне. На 
рис. 7.1.9 показаны ТВ, ЛЛ и ИК-изображения, полученные при наблюдении объекта 
на средней дальности (400 м). Ha ЛЛ-изображении селектируется только подвиж- 
ный объект, На рис. 7.1.10 представлены ТВ, ЛЛ и ИК-регистрации изображений 
объекта на большой дальности (2000 м). Объект наблюдается на изображениях всех 
трех датчнков, но форма объекта визуально неразличима. Ha рис. 7.1.11 представлены 
изображения городской сцены в ТВ и двух ИК-диапазонах (3-5 и 8-14 мкм). 
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Рис. 7.1.8. TB ИК-и жения звижуц s объек " TET 


Рис.7.1.10. TB. ЛЛ и HK жения oC vex " ' (QUEM 


Рис. 7.1.11. Изображения городской сцены в ТВ и двух ИК-дпапазоиах (3-5 и 8-14 ики) 
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Как видно из приведенных примеров, изображения, получаемые от датчиков раз- 
личных диапазонов, имеют существенную корреляцию, поскольку имеются естествен- 
ные взаимосвязи между физическими величинами, которые измеряются этими дат- 
чиками. Это означает, что со статистической точки зрения данные, формируемые 
различными каналами многоканальных систем дистанционного наблюдения, не мо- 
гут рассматриваться как независимые источники свидетельств об объектах сцены 
наблюдения. Тем не менее, каждый диапазои несет и определенную специфическую 
информацию об объекте наблюдения, что позволяет системам машинного зрения, ис- 
пользующим несколько различных датчиков, демонстрировать лучшие результаты по 
сравнению с системами, основанными на одном спектральном диапазоне. 

Комплексирование данных различной физической природы может осуществляться 
на основе логического или вероятностного объединения поканальных решений, полу- 
ченных в ходе раздельного анализа информации, поступающей от каждого датчика. 
Известны также схемы комплексирования, основанные на классификации объединен- 
ных наборов признаков, формируемых по совокупности признаков, выделяемых в ходе 
анализа изображений разных каналов. Однако большинство современных подходов к 
построению многоканальных систем машинного зрения предполагают уже He «ком- 
плексирование» многозональной информации в прежнем узком смысле, а сложный 
многоэтапный процесс совместного анализа данных, на различных этапах которого 
в центре рассмотрения оказываются изображения от различных датчиков, происходит 
их перекрестный опрос, запрашиваются различного рода подтверждения и уточнения 
ит.д. и т. п. Разработанный в ГосНИИАС оригинальный подход к классификации 
алгоритмов и структур для работы с данными различной физической природы по- 
лучил название ПОМИ (платформа обработки многоспектральной информации) 
[260], [269]. Он позволяет в едином ключе описывать, анализировать и разрабаты- 
вать наиболее широкий спектр схем обработки и комплексирования многозональной 
информации. Для того чтобы описать общую структуру ПОМИ, необходимо сиача- 
ла определить набор типов данных, а затем, опираясь на них, набор типов процедур 
обработки. 

В последние годы в области комплексирования данных существует принятая KOH- 
цепция семантических уровней представления данных, включающая уровень изме- 
рений, признаковый уровень, уровень оценок достоверности, символьный уровень. 
Упомянутые оценки достоверности представляют собой векторы вероятностного или 
нечеткого описания принадлежности объекта некоторому классу или типу объектов. 
B то же время любой тип данных в вычислительных системах есть совокупность 34€- 
ментов, оргапизованная в некоторую структуру. Соответствующая схема уровней 
организации данных включает растровые данные, 20-структурированные данные, 
3).структурированные данные, а также даиные, структурированные во времени. 

Таким образом, любой практический тип данных может быть описан путем ис- 
пользования двух «координат» — семантического уровня и организационного уров- 
ня. Комплексирование также может выполняться на любом уровне первой схемы и 
одновременно на любом уровне второй схемы. Перечислим вкратце, какие виды про- 
цедур обработки и комплексирования можно определить для представленного таким 
образом набора типов данных. Семантические межуровневые процедуры сохраняют 
структуру, изменяя тип содержащихся в ней элементов. Структурные межуровне- 
вые процедуры сохраняют типы элементов при изменении структурной организации 
данных. Лроцедуры попарного комплексирования объединяют две входные струк- 
туры в одну выходную структуру того же типа. Необходимо также выделить два 
различных типа комплексирования: комплексирование элементов и комплексирова- 
ние структур, Эти процедуры должны применяться для каждой из структур данных, 
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поддерживаемых системой обработки данных различной физической природы, исполь- 
зуя следующие процедуры комплексирования структур: объединение, пересечение и 
ранговое комплексирование структур. Процедуры фильтрации являются внутриуров- 
невыми процедурами с одним входом и одним выходом. Они всегда сохраняют размер- 
ность элементов данных. В их число входят: преобразование элементов — часто ис- 
пользуются на измерительном и признаковом уровнях, например, гистограммные пре- 
образования полутоновых изображений или отображение признаковых пространств; 
линейные и нелинейные преобразования — обработка растровых данных в простран- 
ственной или частотной областях; геометрические преобразования — преобразуют 
любые пространственные даипые, используя некоторую геометрическую модель. Mo- 
жет быть использован широкий набор таких процедур, например, они могут исполь- 
зоваться для обеспечения условий взаимной привязки и синхронизации данных при 
регистрации. 

В частности, на основании проводившихся в Гос НИИАС численных экспериментов 
по комплексированию многоспектральных данных на уровне векторов достоверности 
оказалось возможным сделать следующие выводы. 

1. Комплексирование всегда обеспечивает более высокую достоверность распозна- 
вания, чем каждый из каналов в отдельности. При отказе одного из каналов решение 
практически принимается по одному оставшемуся каналу. 

2. При комплексировании по методу Демпстера-Шафера [332], [355] больший вес 
придается показаниям канала с меньшим показателем неуверенности. 

3. В присутствии помех высокой интенсивности комплексирование на уровне век- 
торов достоверности позволяет принять решение даже тогда, когда ни по одному из 
каналов в отдельности его принять невозможно. 

Последний вывод можно проиллюстрировать следующим числовым примером (см. 


табл. 7.1.2). 
) Ta6nnua 7.12. 


| Диапазон | ki | № | m | s2 | so | 
(TB — — | 003 | 0,345 | 0161 | 0.184 [ 0,655 | 
(MK — 0469 | 0,540 | 0,253 | 0.206 | 0.451 | 
[ТВ+ИК — | 0,568 | 0,674 | 0,308 | 0.366 | 0,326 | 


Здесь & и kg — исходные значения оценок принадлежности наблюдаемого объекта 
одному из двух близких классов, формируемых независимо по каждому спектрально- 
му каналу алгоритмами обнаружения и идентификации объектов. После этого на их 
основе рассчитывается нормированный вектор оценок достоверности $ = (31:52,86), 
где 51 И 52 — коэффициенты уверенности в принадлежности объектов к | H 2 клас- 
су; 50 — коэффициент неуверенности распознавания типа цели; з; + 32 + зө = 1 — 
условие пормировки. Как видно, в данном примере коэффициент неуверенности 
распознавания типа цели Sg по каждому из каналов в отдельности много больше 
оценки достоверности принадлежности цели обоим классам (s, и 32 соответственно). 
В то же время, по результатам комплексирования мы вправе принять решение об 
обнаружении объекта класса 2, так как достоверность распознавания объекта этого 
класса оказывается больше, чем достоверность неопределенного решения: 52(ТВ + 
+ ИК) = 0,366 > 0,326 = зе (ТВ + ИК). 


7.1.8. Системы улучшенного видения для самолетов гражданской авиации. 
Как показывают исследования Всемирного фонда безопасности, почти 75% аварий ca- 
молетов при заходе на посадку и посадке происходят в аэропортах, где недоступны 
или отсутствуют приборы точного захода на посадку. в условиях плохой видимости. 
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В связи этим одним из важных направлений совершенствования бортовой авиони- 
ки является разработка аппаратно-программных комплексов «улучшенного видения» 
(Enhanced Flight Vision Systems, EFVS). По функциональным характеристикам систе- 
мы улучшенного видения разделяются Hà три типовых класса: системы улучшенной 
визуализации, системы синтезированного видения и системы автоматизированного 
видения. 

Системы улучшенной визуализации (Enhanced Vision System, EVS) формиру- 
ют улучшенное изображение внешней среды по изображениям с телевизионного и 
тепловизионного канала и отображают его на индикаторе на лобовом стекле (ИЛС) 
или многофункциональном индикаторе-дисплее (МФИ). На улучшенном изображе- 
нии пилот может визуально идентифицировать объекты окружающего ландшафта и 
ВПП, которые в условиях ограниченной видимости невидны невооруженным глазом. 

Системы синтезированного видения (Synthetic Vision System, SVS) помимо 
улучшенных изображений внешней среды визуализируют данные о рельефе. Благо- 
даря этому летчик лучше информирован об окружающих физических ограпичепиях, 
что позволят ему с большей эффективностью действовать в случае внезапной необ- 
ходимости отклониться от заданной траектории. Для информационного обеспечения 
систем SVS используются базы данных рельефа местности вдоль маршрутов полета, 
базы данных аэропортов и объектов взлетно-посадочной полосы (ВПП). Часто реали- 
зуется т.н. режим визуализации «коридор в небе», указывающий летчику диапазон 
возможных положений самолета при движении по заданной траектории полета. 

Системы автоматизированного видения (Automated Vision System, AVS) в до- 
полнение к функциям улучшенного видения автоматизируют обнаружение ВПП и 
других объектов интереса при заходе на посадку и посадке, а также обнаружение 
потенциально опасных препятствий при рулежке самолета на ВПП 

В настоящее время на рынке присутствует ряд известных систем улучшенного 
видения (EVS, EFVS). 

Компания Kollsman Inc. (США) предлагает asa EVS решения — Kollsman All 
Weather Window и Kollsman Night Window. Первая система предназначена для pa- 
боты Bo всепогодных условиях. В состав системы входят: охлаждаемый ИК-датчик 
(cooled FLIR), спецвычислитель, дисплей с подогревом, ПО обработки и визуализации 
изображений. Система Kollsman Night Window представляет собой более компактное 
и дешевое решение, предназначенное для работы в темное время суток, но при хо- 
роших погодных условиях. В состав системы входит неохлаждаемый микроболометр, 
работающнй в диапазоне 8-14 мкм. 

Компанией Gulfstream Aerospace Corporation разработана EVS в составе; ИК- 
датчика Kollsman FLIR с сапфировым экраном; ИЛС компании Honeywell, оргипаль- 
ного ПО обработки и визуализации изображений. 

Компания СМС Electronics (Канада) предлагает два вида систем: СМА-2600 |- 
Series™ и более компактный и дешевый вариант СМА-2610 M-Series™, В 1-Ѕегіеѕ 
используется охлаждаемый, двухдиапазонный (1-3 мкм и 3-5 икм) ИК-датчик, в слу- 
чае M-Series — неохлаждаемый, работающий в диапазоне 8-14 мкм. В стадии раз- 
работки находится система на базе миллиметрового радара. Индикация изображений 
выполняется на ИЛС и/или МФИ дисплеи. Также может устанавливаться подсистема 
синтезированного зрения (SVS), предоставляющая даиные о рельефе местности. 

Компания Max-Viz Inc. (США) предлагает систему EVS 2500 на базе двух HK- 
датчиков: длинноволнового — для формировання изображений рельефа и потеициаль- 
ных препятствий, и коротковолнового — для обнаружения ярких сигнальных огней 
ВПП. Информация с обоих датчиков поступает на спецвычислитель, где комплек- 
сируется и выдается на МФИ летчику. Благодаря использованию неохлаждаемых 
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ИК-датчиков EVS 2500 имеет компактные размеры, небольшой Bec и достаточно npo- 
ста в установке. Кроме того, отсутствие криогенной системы охлаждения значнтельно 
уменьшает ее стоимость. Компания также предлагает более лешевое решение па базе 
одного неохлаждаемого ИК-датчнка EVS 1000 для вертолетов и бизнес-самолетов. 


Рис. 7.1.12. Пркмеры работы системы Kollsman АП Weather Window. «EVS Viewe — сннтезироваиное 
изображение, «Window View» — вид из кабины пилота 


Рис. 7.1.13. Примеры работы системы Gulístreain. EVS. Показаны изображения, формнруечые EVS 
(With EVS). и вид из кабины нилота без EVS (Withoul EVS) 


Rockwell Collins EVS формируст ИК-изображения 
внешней среды, которую видит пнлот, и выводит их 
на дисплей навигационной системы на лобовом стекле 
HGS9-4000 разработки этой же компании. Интерфейс 
ЕҮ5-системы обеспечивает взаимодействие ИК-датчика 
и навнгационной системы HGS с целью предоставления 
пилоту онтимального по качеству ИК-изображения. 

Следует отметить, что все перечнсленные сертифици- 
рованные коммерческие системы EVS первого поколения 
представляют собой простые неинтеллектуальные систе- 
мы «датчик-дисплей», обеспечивающие передачу на HH- 
дикатор в кабине изображения, полученного от датчиков. 
Лнишь некоторые системы предоставляют возможность 
визуализации снитезированных гсографнческих данных с 
использованием GPS. Лишь в одной из систем используется комплексирование изоб- 
ражений от различных датчиков. причем оба датчика ИК (различных днапазонов). 
Задача комплексирования и отображения данных. одновременно поступающих от ДР- 
ФП, ue рассматривается и не решается ни в одной H3 этнх систем. Также ни в одной 
из коммерческих систем EVS не рассматриваются задачи автоматического выделения 


Рис. 7.1.14. Пример работы 
системы Rockwell Collins EVS 
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ВПП, препятствий и распознавания объектов из базы геопространственных данных. 
Тем более не рассматриваются задачи стыковки EVS с снстемой автоматического 
управления посадкой. В ro же время, нзвестно, что работы по всем указанным Ha- 
правлениям активно ведутся. Таким образом, на повестке дня сейчас стоит создание 
EVS следующего поколения, представляющих собой авиационные системы многос- 
нектрального технического зрения и улучшенной компьютерной визуализации зака- 
бинной обстановки, существенно превосходящие ныне известные EVS гражданского 
назначения по набору функций комплексирования, и особенио — в части интеллекту- 
альной обработки видеоданных. 

Важнейшую роль в таких EVS иового поколения должна играть система техииче- 
ского зрения (CT3), выполняющая следующие основные фуикции: 

e получение и оцифровка многоспектральной видеоинформации; 

• комплексирование многоспектральной видеоинформации; 

e автоматическая привязка оперативной видеоииформации к априорной информа- 
ции о закабинной обстановке с учетом нмеющихся навигационных данных; 

e автоматическое обнаружение ВПП и другнх типовых объектов интереса в отсут- 
ствие навигационных данных и априорной информации о закабинной обстановке; 

e автоматическое обнаружение препятствий на ВПП. 

В состав аппаратного обеспечения СТЗ могут входить: телевизионные видеодатчи- 
ки (ТВ) различного разрешения; инфракрасные (ИК) видеодатчики различных диапа- 
зонов; миллиметровые радары (МР); лазерные локаторы (ЛЛ); специализированные 
бортовые вычислители. 


Рис. 7.1.16. Пример обнаружения элементов ВПП на основе преобразоваиня Хафа: а — изображение 
аккумулятора, б — выделенные прямые линии 


В состав программио-алгоритмического обеспечения перспективной бортовой мно- 
госпектральной системы технического зрения должны входить следующие осиовные 
модули: модули управления видеодатчиками различных диапазонов; модули обмена 
информацией с другими бортовыми подсистемами; модуль организации информаци- 
онного обмена, синхронизации захвата и обработки многоспектральных видеоданных: 
модули раздельной поканальной обработки видеоданных; модуль комплексирования 
многоспектральной видеоинформации; модуль автоматической привязки оперативной 
двумерной видеоинформации к апрнорной двумерной или трехмерной информации с 
учетом текущих навигационных данных; модули автоматического обнаружения ВПП 
и других типовых объектов ннтереса в отсутствие навигационных данных и априор- 
ной информации; модуль автоматического обнаружения препятствий на ВПП. 

На протяжении последних лет необходимые для решения перечислеиных задач 
методы, подходы и алгоритмы были реализованы, опробованы и протестированы со- 
трудникамн l'ocHHHAC. В частности, на рис. 7.1.15 приведен пример автоматического 
обнаружения ВПП с использованием модифицированного преобразования Хафа. 
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Накопленный к настоящему моменту практический задел позволяет C увереино- 
стью говорить о TOM, что реалнзация описанных модулей перспективной CT3 для EVS 
действительно возможна и должна обеспечить необходимые характеристики функци- 
онирования такой системы. 


7.1.9. “Литература для самостоятельного изучения. Аналитическая фотограм- 
метрия, несомнеино, является основой современных систем трехмерного зрения, вклю- 
чая и обработку данных, получаемых непосредственно путем лазерного сканирования. 
В качестве основной справочной книги здесь можно указать книгу (Лобанов) [29]. 

В книге (Шапиро, Стокман) [49] вопросы соответствия элементов двумерных 
изображений рассматриваются в главе 11. Главы 12 и 13 посвящены восприятию трех- 
мерных сцен. Выделение объектов местности рассматривается в главе 14 «Трехмерные 
модели. Распознавание объектов на изображеннях на основе моделей». 

В книге (Форсайт, Понс) |44] задаче рекоиструкции трехмерной пространствен- 
ной информации по набору двумерных изображений посвящена вся часть Ш данной 
книги, включающая главы 10 «Геометрия нескольких проекций», 11 «Стереозрение», 
12 «Определение аффииной структуры по движению» и 13 «Определение проективной 
структуры по движению». Мы рекомендуем всю Ш часть книги [44] для углублениого 
самостоятельного изучения. 

В разделе 7.1 мы также кратко затронули приложення, связанные C геометриче- 
ским моделированием и виртуальной реальностью. В книге (Шапиро, Стокман) [49| 
эти вопросы рассматриваются в главе 15 «Системы виртуальной реальности». В кииге 
(Форсайт, Понс) [44] — в главе 26 «Визуализация на основе изображеннй». 
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7.2. Обработка документов, распознавание текста M штриховых кодов 


В данном разделе мы рассмотрим технологии сегментации и считывания документов. 
а также несколько практических систем, использующих эти технологии. 


7.2.1. *Оптическое распознавание символов (OCR). Задача распознавания Tek- 
стовой информации при переводе печатного и рукописного текста в электронную фор- 
му является одной из важнейших составляющих любого проекта, имеющего целью 
автоматизацню документооборота или внедрение безбумажных технологий. Вместе с 
тем эта задача является одной из наиболее сложных и наукоемких задач полностью 
автоматического апализа изображений. Даже человек, читающий рукописный текст, в 
отрыве от контекста, делает в среднем около 4% ошибок. Между тем, в наиболее от- 
ветственных приложениях OCR необходимо обеспечивать более высокую надежность 
распознавания (свыше 99%) даже при плохом качестве печатн и оцифровки исходного 
текста. 

В последние десятилетия, благодаря использованию современных достижений ком- 
пьютерных технологий, были развиты новые методы обработки изображеннй и распо- 
знавапия образов. благодаря чему стало возможным созданне таких промышленных 
систем распознавання печатного текста, как например, FineReader, которые удовлетво: 
ряют основным требованиям систем автоматизацин документооборота. Тем не менее. 
создание каждого нового приложения в даиной области по-прежнему остается твор- 
ческой задачей и требует дополнительных нсследований в связи со специфическими 
требованиямн по разрешению, быстродействию, надежности распознавания и объему 
памятн, которыми характеризуется каждая конкретная задача. 

Типовые проблемы, связанные с распознаванием символов. Имеется ряд су- 
щественных проблем, связанных с распознаваннем рукописных и печатных символов. 
Наиболее важные из них следующие: 

e разнообразие форм начертання символов; 

® искаженне нзображеннй символов; 

e вариации размеров и масштаба символов. 

Каждый отдельный символ может быть написан различными стандартными шриф- 
тами, например (Times, Gothic, Elite, Courier, Orator), а также — множеством нестан- 
дартных шрифтов, используемых в различных предметных областях. При этом раз- 
личные символы могут обладать сходными очертаниями. Например, «U» и «V», «S» и 
«5», «29 и «2v, «бэ и «б». 

Искажения цифровых изображений текстовых символов могут быть вызваны: 

• шумами печати, в частности, непропечаткой (разрывами слитных черт симво- 
лов), «слипанием» соседних символов, пятнами и ложными точками Hà фоне вблизи 
символов И T. п.; 

© смещением символов или частей символов относительно их ожидаемого положе- 
ния в строке; 

e изменением наклона символов; 

e искажением формы символа за счет оцифровки изображения с «грубым» дискре- 
том; 

e эффектами освещения (тени, блики и т. п.) при съемке видеокамерой. 
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Существенным является и влияние исходного масштаба печати. В принятой тер- 
мипологии масштаб 10, 12 или 17 означает, что в дюйме строки помещаются 10, 12 
или 17 символов. При этом, например, символы масштаба 10 обычно крупнее и шире 
символа масштаба 12. 

Система оптического распознавания текста (ОСВ), должиа выделять на цифро- 
вом изображенин текстовые области, выделять в них отдельные строки, затем — 
отдельные символы, распознавать эти снмволы и при этом быть нечувствительной 
(устойчивой) по отношению к способу верстки, расстоянию между строками и дру- 
гим параметрам печати. 

Структура систем оптического распознавания текстов. Системы OCR cocto- 
ят из следующих основных блоков, предполагающих аппаратную или программную 
реализацию: 

® блок сегментации (локализации и выделения) элементов текста; 

e блок предобработки изображения; 

e блок выделения признаков; 

• блок распознавания символов; 

e блок постобработки результатов распознавания. 

Эти алгоритмические блоки соответствуют последовательным шагам обработки и 
анализа изображений, выполняемым последовательно. 

Сначала осуществляется выделение текстовых областей, строк и разбиение 
связных текстовых строк на отдельные знакоместа, каждое из которых соответствует 
одному текстовому символу. 

После разбиения (а иногда до или в процессе разбиения) символы, представлен- 
ные в виде двумерных матриц пикселов, подвергаются сглаживанию, фильтрации c 
целью устранения шумов, нормализации размера, а также другим преобразованиям 
с целью выделения образующих элементов или численных признаков, используемых 
впоследствии для их распознавання. 

Распознавание символов происходит в процессе сравнения выделенных характер- 
ных признаков с эталонными наборами и структурами признаков, формируемыми и 
запоминаемыми в процессе обучения системы на эталонных и/илн реальных примерах 
текстовых символов. 

На завершающем этапе смысловая или контекстная информация может быть ис- 
пользована как для разрешения неопределенностей, возникающих при распознавании 
отдельных символов, обладающих идентичнымн размерами, так и для корректировки 
ошибочно считанных слов и даже фраз в целом. 

Методы предобработки и сегментации изображений текстовых символов. 
Предобработка является важным этапом в процессе распознавания символов и позво- 
ляет производить сглаживание, нормализацию, сегментацию и аппроксимацию отрез- 
ков линий, 

Под сглаживанием в данном случае понимается большая группа процедур обра- 
ботки изображений, многие из которых были рассмотрены в главе 3 данной книги. В 
частности, широко используются морфологические операторы заполнения и утонче- 
ния. Заполнение устраняет небольшие разрывы и пробелы. Утончение представляет 
собой процесс уменьшения толщины линии, в которой на каждом шаге области раз- 
мером в несколько пикселов ставится в соответствие только один пиксел «утонченной 
линии», Морфологический способ реализации подобных операций на базе операторов 
расширения н сжатия Серра был описан в главе 3.2. 

Там же описан и специальный алгоритм бинарной фильтрации изображений тек- 
стовых символов, получивший название стирание бахромы. Под «бахромой» здесь 
понимаются неровности границ символа, которые мешают, во-первых, правнльно опре- 
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делить его размеры, à во-вторых, искажают образ символа и мешают ero дальнейшему 
распознаванию по контурному признаку. 

Геометрическая нормализация изображений документов подразумевает исполь- 
зование алгорнтмов, устрапяющих наклоны и перекосы отдельных символов, слов или 
строк, а также включает в себя пронедуры, осуществляющие нормализацию символов 
по высоте и ширине после соответствующей их обработки. 

Процедуры сегментации осуществляют разбиение изображения документа на от- 
дельиые области. Как правило, прежде всего иеобходимо отделить печатный текст от 
графикн и рукописных пометок. Далее большинство алгоритмов оптического распо: 
знавания разделяют текст на символы и распознают их по отдельности. Это простое 
решение действительно наиболее эффективно, если только символы текста He пере- 
крывают друг друга. Слияние символов может быть вызвано типом шрифта, которым 
был набран текст, плохим разрешением печатающего устройства илн высоким уровнем 
яркости, выбранным для восстановления разорванных символов. 

Дополнительное разбиение текстовых областей и строк на слова целесообразно в 
том случае, если слово является состоятельным объектом, в соответствии с которым 
выполняется распознавание текста. Подобный подход, при котором еднницей распо- 
знавания является не отдельный символ, а целое слово, сложно реализовывать из-за 
большого числа элементов, подлежащих запоминаиию и распознаванию, HO он может 
быть полезен и весьма эффективен в конкретных частных случаях, когда набор слов 
в кодовом словаре существенно ограничеи по условию задачи. 

Под аппроксимацией отрезков линий понимают составление графа описания сим- 
вола в виде набора вершин и прямых ребер, которые пепосредственно аппроксими- 
руют цепочки пикселов исходного изображения. Данная аппроксимация осуществ- 
ляется для уменьшения объема данных и может использоваться при распознавании. 
основанном на выделении признаков, описывающих геометрию и топологию изобра- 
жения, 

Признаки символов, используемые для автоматического распознавания тек- 
ста. Считается, что выделение признаков является одной из наиболее трудных и 
важных задач в распознавании образов. Для распознавания символов может быть ис- 
пользовано большое количество различных систем признаков. Проблема заключается 
в том, чтобы выделить именно те признаки, которые позволят эффективно отличать 
один класс символов от всех остальных в данной конкретной задаче. 

Ниже описан ряд основных методов распознавания символов и соответствующих 
им типов признаков, вычисляемых на основе цифрового изображения. 

Сопоставление изображений и шаблонов. Эта групиа методов 
основана на непосредственном сравнении изображений тестового и эталонного симво- 
лов. При этом вычисляется степень сходства между образом и каждым из эталонов. 
Классификация тестируемого изображения символа происходит по методу ближай- 
шего соседа. Ранее мы уже рассматривали методы сравнения изображений в разделе 
4.2, а именно — методы корреляции и согласованной фнльтрации изображений. 

С практической точки зрения эти методы легко реализовать, и многие коммерче- 
ские системы OCR используют именно их. Однако при «лобовой» реалнзацни Koppe- 
ляционных методов даже небольшое темиое пятнышко, попавшее на внешний KOH- 
тур символа, может существенно повлиять на результат распознавания. Поэтому 
лля достижения хорошего качества распознавания в системах, использующих CONO- 
ставление шаблонов, применяются другие, специальные способы сравнения изобра- 
жений. 

Одна из основных модификаций алгоритма сравнения шаблонов использует пред- 
ставленне шаблонов в виде набора логическнх правил. Например, символ 
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может быть распознан как «ноль», если: (не менее 5 символов «а» являются el» или не 
менее 4 символов че» = el») И (не Menee 5 символов «b» являются «1» или не менее 4 
символов «f» = «1») И (не менее 5 символов «C» ИВЛЯЮТСЯ «1» или не менсе 4 символов 
«g» = el») И (не менее 5 символов «d» ЯВЛЯЮТСЯ «1» или не менее 4 символов «li» = 
= ‹1») И (по крайней мере 3 символа «i» являются «0») И (по крайней мере 3 символа 
ej» ЯВЛЯЮТСЯ «0»). 

Статистические характеристики. В данной группе методов выделе- 
ние признаков осуществляется на основе анализа различных по статистических pac- 
пределений точек. Наиболее известные методики этой группы используют вычисление 
моментов и подсчет пересечений. 

Моменты различных порядков с успехом используются в самых различных обла- 
стях машинного зрения в качестве дескрипторов формы выделенных областей и объ- 
ектов (см. раздел 4.1). В случае распознавания текстовых символов в качестве набора 
признаков используют значения моментов совокупиости «черных» точек относитель- 
но некоторого выбраниого центра. Наиболее общеупотребительными в приложениях 
такого рода являются построчные, центральные и пормированные моменты. 

Для цифрового изображения, хранящегося в двумерном массиве, построчные мо- 
менты являются функциями координат каждой точки изображения следующего вида: 


M-IN-I 


ты = У) Уату fiz,y), 


т=0 у=0 


где p,q € {0,1,...,00}; М и N являются размерами изображения по горизонтали и 
вертикали и f(r,y) является яркостью пнксела в точке (x,y) на изображении. 
Центральные моменты являются функцией расстояния точки от центра тяжести 
символа: 
M-IN-I 
mp = У) У (= ВР - 9 (с.р), 


1=0 у::0 


где ти у «с чертой» — координаты центра тяжести. 

Нормированные центральные моменты получаются в результате деления цен- 
тральиых моментов на моменты нулевого порядка. 

Следует отметить, что строковые моменты, как правило, обеспечивают более низ- 
кий уровень распознавания. Центральные и нормированные моменты более предпо- 
чтительны вследствие их большей ипвариантности к преобразовапиям изображений. 
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В методе пересечений признаки формиэуются путем подсчета того, сколько раз и 
каким образом произошло пересечение изображения символа с выбранными прямы- 
ми, проводимыми под определенными углами. Этот метод часто используется в ком- 
мерческих системах благодаря тому, что он инвариантен к дисторсии и небольшим 
стилистическим вариациям написания символов, а также обладает достаточио высо- 
кой скоростью и ие требует высоких вычислительных затрат. На рис. 7.2.| показано 
эталоиное изображение символа П. система секущих прямых, а также вектор расстоя- 
ний до эталонных векторов. На рис. 7.2.2 представлен пример реального изображения 
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Puc.7.2.3. Пример формирования зонного Рис. 7.2.4. Пример формирования зонного 
описания для эталонного изображения снмво- описания дли реального изображения симво- 
ла К ла IR; К = 0,387 
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символа Ft. Цветом (cM. цветную вклейку) также помечена строка, соответствующая 
ближайшему соседу. 

Метод зон предполагает разделение площади рамки, объемлющий снмвол, на 
области и последующее использование плотностей точек в различных областях в ка- 
честве набора характерных признаков. На рис. 7.2.3 показано эталонное изображение 
символа R, a на рис. 7.2.4 — реальное изображение символа /?, полученное путем ска- 
нирования изображения документа. На обоих изображениях приводятся разбиение на 
зоны, пиксельные веса каждой зоны, а также вектор расстояний до эталонных век- 
торов эталонных символов. Цветом помечена строка, соответствующая найденному 
ближайшему соседу. 

В методе матриц смежности в качестве признаков рассматриваются частоты COB- 
местной встречаемости «черных» и «белых» элементов в различных геометрических 
комбинациях. Метод характеристических мест (characteristic-loci) использует в Ka- 
честве признака число раз, которое вертикальный и горизонтальный векторы пересе- 
кают отрезки линий для каждой светлой точки в области фона символа. 

Существует также множество других методов данной группы. 

Интегральные преобразования. Среди современных технологий рас- 
познавания, основанных на преобразованиях, выделяются методы, использующие 
Фурье-дескрипторы символов, а также частотные дескрипторы границ, 

Преимущества методов, использующих преобразования Фурье-Меллина, связаны 
с тем, что они обладают инвариантностью к масштабированию, вращению и сдвигу 
символа. Осиовиой недостаток этих методов заключается в нечувствительности к 
резким скачкам яркости на границах, к примеру, по спектру пространственных частот 
сложно отличить символ «О» от символа «С» ит. п, B то же время, при фильтрации 
шума на границах символа, это свойство может оказаться полезным, 

Анализ структурных составляющих. Структурные признаки обыч- 
по используются для выделения общей структуры образа. Они описывают гсометриче- 
ские и топологические свойства символа. Проще всего представить идею структурного 
распознавания символа текста применительно к задаче автоматического считывания 
почтовых индексов. В таких «трафаретных» шрифтах положение каждого возможного 
отрезка-штриха заранее известно, и один символ отличается от другого не менее чем 
наличием или отсутствием целого штриха. Аналогичная задача возникает и в случае 
контроля простых жидкокристаллических индикаторов. В таких системах выделение 
структурных составляющих сводится к анализу элементов заранее известного трафа- 
pera (набора отрезков, подлежащих обнаружению). 

В системах структурного распознавания более сложных шрифтов часто используе- 
мыми признаками также являются штрихи, применяемые для определения следующих 
характерных особениостей изображения: концевых точек, точек пересечения отрез- 
ков, замкнутых циклов, а также их положения относительно рамки, объемлющей 
символ. Рассмотрим, например, следующий способ структурного описания символа. 
Пусть матрица, содержащая утонченный символ, разделена на девять прямоуголь- 
ных областей (в виде сетки 33), каждой из которых присвоен буквенный код от «А» 
до «1». Символ рассматривается как набор штрихов. При этом штрих, соединяющий 
некоторые две точки B начертании символа, может являться линией (L) или кри- 
вой (С). Штрих считается отрезком (дугой) кривой, если его точки удовлетворяют 
следующему выражению 


n 
1 ах; + byi +С 
“> 0,69, 
п. 

i=l 


Ма? + 5? 
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в противном случае считается, что это прямолинейный отрезок. В данной формуле 
(Ti Yi) является точкой, принадлежащей штриху; az + у + с = 0 — уравнение npa- 
мой, проходящей через концы штриха, коэффнциент 0,69 получен опытным путем. 
Далее символ может быть описан набором своих отрезков и дуг. Например, запись 
(«ALC», «АСО» } означает наличие прямой, проходящей из области «А» в область «С». 
и кривой, проходящей из области «А» в область «D» соответственно. 

Основное достоииство структурных методов распознавания определятся их устой- 
чивостью к сдвигу, масштабированию и повороту символа на небольшой угол, a TaK- 
же — к возможиым дисторсиям и различным стилевым вариациям и небольшим ис- 
кажениям шрифтов. 

Классификация символов. В существующих системах OCR используются раз- 
нообразные алгоритмы классификации, то есть отнесения признаков к различным 
классам. Они существенио различаются в зависимости от принятых наборов призна- 
ков и применяемой по отношению к ним стратегии классификации. 

Для признаковой классификации символов необходимо, в первую очередь, сфор- 
мировать набор эталонных векторов признаков по каждому из распознаваемых сим- 
волов. Для этого на стадии обучения оператор или разработчик вводит в систему 
OCR большое количество образцов начертания символов, сопровождаемых указанием 
значения символа. Для каждого образца система выделяет признаки и сохраняет их 
в виде соответствующего вектора признаков. Набор векторов признаков, описываю- 
щих символ, называется классом, или кластером. 

В процессе эксплуатации системы OCR может появиться необходимость расши- 
рить сформированиую ранее базу знаний. В связи с этим иекоторые системы обладают 
возможностью дообучения в реальном режиме времени. 

Задачей собственно процедуры классификации или распознавания, выполняемой 
в момеит предъявления системе тестового изображения символа, является определе- 
ние того, к какому из ранее сформированных классов принадлежит вектор признаков. 
полученный для данного символа. Алгоритмы классификации основаны на опреде- 
лении степени близости набора признаков рассматриваемого символа к каждому из 
классов. Правлоподобие получаемого результата зависит от выбранной метрики про- 
страиства признаков. Наиболее известной метрикой призиакового пространства явля- 
ется традиционное Евклидово расстояние 


N 
DF = |У (^f - FIP, 


где FL — 1-й признак из j-ro эталониого вектора; Е! — і-й признак тестируемого 
изображения символа. 

При классификации по методу ближайшего соседа символ будет отиесен к классу. 
вектор признаков которого наиболее близок к вектору признаков тестируемого сим: 
вола. Следует учитывать, что затраты на вычисления в таких системах возрастают с 
увеличением количества используемых признаков и классов. 

Одна из методик, позволяющих улучшить метрику сходства, осиовапа на стати- 
стическом анализе эталонного набора признаков. При этом в процессе классификации 
более надежным признакам отдается больший приоритет: 


где w; — вес і-го признака. 
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Другая методика классификации, требующая знания априорной информации о Be- 
роятностной модели текста, осиована на использовании формулы Байеса. Из правила 
Байеса следует, что рассматриваемый вектор признаков принадлежит классу «j», если 
отношение правдоподобия À больше, чем отиошение априорной вероятности класса j 
к априорной вероятности класса $. 

Постобработка результатов распознавания. В ответственных системах OCR ка- 
чество распознавания, получаемое при распознавании отдельных символов, не счита- 
ется достаточным. В таких системах необходимо использовать также контекстную 
информацию. Использование контекстной информации позволяет не только находить 
ошибки, но и исправлять их. 

Существует большое колличество приложений OCR, использующих глобальные 
и локальные позиционные диаграммы, триграммы. п-граммы, словари и различные 
сочетания всех этих методов. Рассмотрим два подхода к решению этой задачи: словарь 
и набор бинарных матриц, аппроксимирующих структуру словаря. 

Доказано, что словарные методы являются одними из наиболее эффективных при 
определении и исправлении ошибок классификации отдельных символов. При этом 
после распознавания всех символов некоторого слова словарь просматривается B по- 
исках этого слова, с учетом того, что оно, возможно, содержит ошибку. Если слово 
найдено в словаре, это не говорит об отсутствии ошибок. Ошибка может превра- 
тить одно слово, находящееся в словаре, в другое, также входящее в словарь. Такая 
ошибка ие может быть обнаружена без использования смысловой коитекстной инфор- 
мации: только она может подтвердить правильность написания. Если слово в словаре 
отсутствует, считается, что в слове допущена ошибка распознавания. Для исправле- 
ния ошибки прибегают к замене такого слова на наиболее похожее слово из словаря. 
Исправление не производится, если в словаре найдено несколько подходящих канди- 
датур для замены. В этом случае интерфейс иекоторых систем позволяет показать 
слово пользователю и предложить различные варианты решения, например, испра- 
вить ошибку, игиорировать ее и продолжать работу или внести это слово в словарь. 
Главный иедостаток в использовании словаря заключается в том, что операции по- 
иска и сравнения, применяющиеся для исправления ошибок, требуют значительных 
вычислительных затрат, возрастающих с увеличением объема словаря. 

Некоторые разработчики с целью преодоления трудностей, связанных с использо- 
ванием словаря, пытаются выделять информацию о структуре слова из самого слова. 
Такая информация говорит O степени правдоподобия п-грамм (символьных последо- 
вательностей, например, пар или троек букв) в тексте, которые также могут быть 
глобально позиционироваиными, локально позиционированными или вообще непози- 
ционированными. Например, степень достовериости непозиционированной пары букв 
может быть представлена в виде бинарной матрицы, элемент которой равен 1 тогда и 
только тогда, когда соответствующая пара букв имеется в некотором слове, входящем 
в словарь. Позиционная бинарная диаграмма D;; является бинарной матрицей. onpe- 
деляющей, какая из пар букв имеет ненулевую вероятность возникновения в позиции 
(i,j). Набор всех позиционных диаграмм включает бинарные матрицы для каждой 
пары положений. 


7.2.2. *Считывание штриховых кодов. 

Задача обнаружения и считывания штриховых кодов на изображениях. 
Штриховые коды — самый распространенный на сегодняшний день тип символьных 
идентификаторов товаров и других предметов, предназначенных для автоматического 
считывания. Автоматически считываемые идентификаторы необходимы для эффек- 
тивного функционирования систем автоматизированного складского учета, автомати- 
зированных систем, используемых в торговле, автоматизированных систем контроля 
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и инспекцни на производстве. Вы, несомненно, неоднократно сталкнвалнсь со счн- 
тывателямн штриховых кодов в магазннах и супермаркетах, где специализированные 
лазерные считыватели у касс успешно счнтывают штриховые коды ЕАМ, используе- 
мые в торговле для идентификации товаров. Такие считыватели с лазерной подсветкой 
по сути анализируют не изображение, а линейный профиль вдоль одной подсвеченной 
линин (подобный пример мы рассматривали в разделе 3.2). Однако н в торговле, и 
на производстве в последние годы все чаще используются не только линейные счи- 
тыватели, но и двумерные считыватели на основе ССР” матриц, а также программное 
обеспечение для офисных и промышленных компьютеров, изображения в которые вво- 
дятся при помощи сканеров н видеокамер. Эта тенденция определяется следующими 
основными причинами: 

1) Штрнховые коды в настоящее время бывают не только традиционного линей- 
ного типа (прямоугольная область, заполненная вертикальными черными и белыми 
штрихами различной толщины). В последние десятилетия получили широкое распро- 
странение и так называемые двумерные коды, которые позволяют на той же площади 
разместить существенно больше ннформации, причем информация в них распределе- 
на таким образом, что ее нельзя прочитать, просканировав только одну линию (см. 
ниже описание нескольких основных типов двумерных кодов). Например, микросхемы 
на компьютерном производстве в настоящее время, как правило, помечают двумер- 
ным штриховым кодом Data Matrix. Для считывания двумерных кодов необходимы 
считыватели, получающие и анализирующие двумерные изображения. 

2) Даже в случае использования одномерных штриховых кодов, из-за различно- 
го вида помех и искажений (загрязнение, затирание штрихов, изгиб и коробленне 
поверхности, на которую нанесен штриховой код, наличие бликов н т. п.), линейный 
считыватель далеко не всегда в состоянии быстро и качественно считать информацию. 
поскольку на линии сканирования могут оказаться помехи, В то же время двумерный 
считыватель может в аналогичных условиях решить эту задачу за счет комплекси- 
рования информации по всей площади кода, а не только по одной линии, Поэтому 
вероятность считывания у двумерных сканеров выше. 

3) В автоматизированных системах, включающих человека, попадание сканирую- 
щей линии на штриховой код обеспечивает оператор (например, кассир в супермар- 
кете). В полностью автоматических системах (например, при считывании штриховых 
кодов на изделиях, движущихся по конвейеру) возникает задача автоматического OÓ- 
наружения зараиее не известного местоположения штрихового кода, его размера, типа 
и ориентации (угла наклона). Эта задача также может быть решена только средствами 
анализа двумерного изображения. 

Многие библиотеки содержат готовые средства считывания штриховых кодов. Ма- 
ловероятно, что вам придется самостоятельно разрабатывать алгоритмы такого типа. 
Однако, возможно, вам придется в будущем проектировать комплексные системы тех- 
нического зрения, и в вашем ведении окажется задача автоматического контроля в 
целом — начиная от выбора типа штрихового кода и способа его нанесения на кон- 
тролируемый объект и заканчивая выбором способа его считывания и включением в 
систему соответствующего аипаратного и программного обеспечения. Вам придется 
искать компромисс между объемом кодируемой информации, вероятностью устойчи- 
вого считывания и стоимостью системы. В этом случае вам пригодится наш краткий 
обзор типов существующих штриховых кодов, приводимый ниже в данном разделе. 

Одномерные штриховые коды. В настоящее время существует около 200 видов 
штриховых символик линейных, или одномерных, кодов. Самые популярные штри- 
ховые коды носят следующие: Codabar; interleaved 2 of 5e; код 39; код 93; код 128: 
UPC-E; EAN-8; EAN-13. 
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Рассмотрим штриховые коды, получившие наиболее широкое распространение. 

Штриховой код Codabar — дискретный, семиэлементный штриховой 
код, содержащий цифры 0...9, знаки €t», «=», €», «/», «.», знак доллара и четыре 
строба СТАРТ/СТОП. Буквы штрихового кода Codabar ограничены слева и справа. 
Изображение буквы состоит из четырех штрихов и трех пробелов. В специальных 
знаках три широких штриха, а в стробах СТАРТ/СТОП — два широких пробела и 
один широкий штрих (рис. 7.2.5). 

Штриховой код 2 of 5. Буквы кода, обозначающие цифры от 0 до 9, co- 
держат пять штрихов, два из которых широкие, а три — узкие. Пятый штрих изоб- 
ражения буква — дополнительный, для контроля по четности. Помимо цифр, данный 
код имеет стробы СТАРТ н СТОП, в изображении которых используются всего три 
штриха, два из пих — широкие. Существует разновидность кода «2 of 5», в которой 
использустся прямое и инвертированное изображение буква. Пространство между 
штрихами заполняется разновеликими пробелами, которые также являются носите- 
лями информации. Такой код получил название «interleaved 2 of 5». Буквы, находя- 
щиеся на нечетных позициях, представляются штрихами, а на четных позициях — 
пробелами. 

Код «2 of 5» является дискретным и самопроверяющимся, то есть одиночные ошиб- 
ки считывания обнаруживаются автоматически. Недостатком кода «2 of 5» является 
относительно низкая плотность штрихов и пробелов и отсутствие возможности коди- 
рования алфавитной информации (рис. 7.2.6). Этот код за рубежом используется для 
сортировки и учета товаров и изделий на складах, нумерации авиабилетов и т. п. 
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Рис. 7.2.5. Штриховой код Codabar Puce. 7.2.6. 111триховой код «2 of 5» 


Штриховой код 39. Наименование данного кода связано со структурой H306- 
ражения букв «3 из 9», где три элемента буквы (два штриха и один пробел) из девяти 
являются широкими, а остальные шесть — узкими. Каждая буква кода 39 представ: 
лена пятью штрихами и четырьмя пробелами. По сравнению с кодом 2 of 5 число 
вариантов изображения буква увеличивается в четыре раза и позволяет отобразить 
40 различных букв. Предусмотрены четыре дополнительных знака ($, », +, %). Код 39 
является дискретным, контролируемым. Достоинством этого кода является его очень 
высокая надежность, которая может быть увеличена добавлением в символ контроль- 
ной буквы (рис. 7.2.7). Этот код широко используется в больницах, библиотеках, 
государственных учреждениях, на производстве. 
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Рис. 7.2.7. Штриховой код 39 Рис. 7.2.8. Штриховой код 128 


Штриховой код 128 обеспечивает возможность кодирования 128 различных 
букв. Код 128 принадлежит к той же группе, что и рассматриваемые далее коды ЕАМ 
и UPC. В коде 128 первый элемент изображаемой буквы представляется штрихом, а 
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последний — пробелом. Код 128 является непрерывным и неконтролируемым кодом 
(рис. 7.2.8). Предусматривается кодирование 107 различных букв (21 буква в резерве! 

Штриховые коды UPC и ЕАМ получили наиболее широкое распростра- 
нение для кодирования товаров в производстве и торговле. Первый из них представ- 
ляет стандарг кодирования, принятый в США, второй — в Европе. Сходство кодов 
UPC и ЕАМ заключается в том, что в них используется для кодирования один и 
тот же набор букв: цифры от 0 до 9 и пять вспомогательных символов. Изображе- 
ние буквы содержит два штриха и два пробела. Длина буквы, отображающей цифру. 
равна 7 модулям. Вспомогательные буквы имеют три типоразмера — 3, 5 и 6 mony- 
лей (рис. 7.2.9). Обычно снизу штрихового кода печатается его цифровое значение для 
визуального контроля. Значение тринадцатой позиции символа определяется послело- 
вательностью сочетаний букв четного и нечетного паритетов, расположенных B левой 
части. Наибольшее распространение в торговле за рубежом получили тринадцати- и 
восьмиразрядные коды ЕАМ. Эти штриховые коды относятся к непрерывным, контро- 


лируемым кодам. 
Jl 0019 


Рис. 7.2.9. Символ штрихового кода ЕАМ 


Символики сокращенной размерности (Reduced Space 
Symbolo gy, или RSS) — относительно новое семейство линейных штрнховых KO- 
дов, характеризующееся малыми размерами штрихового кода (рис. 7.2.10-7.2.13) по 
сравнению с кодами EAN/UPC. Код RSS предназначен специально для совместного 
использования с так называемыми композитными штриховыми кодами. Разработка 
RSS и композитной символикн вызвана необходимостью маркировки малоразмерных 
объектов, на которые штриховой код EAN/UPC стандартного размера нанести затруд- 
нительно, а иногда и вовсе невозможно. 


REN PET 
Рис. 7.2.10. Штриховой ховой код сокра- PRG LAAR: рию 


S вой код сокращенной Рис. 7.2.13. Штриховой 
код сокращенпой pa3Mep- щениой размерно- 
размерности —  yce- код сокращенной раз 
ности RSS-14 сти — миогостроч. . 
ченный RSS меркости -- расширен: 
ный 55-14 
ный многострочный RSS 


Двумерные штриховые коды. Линейные штриховые коды были созданы и тра- 
диционпо использовались как машиночитаемые идентификаторы на изделиях. При 
этом каждая этикетка содержала уникальный серийный номер, закодированный в ви- 
де черных и белых полос, который служил ключом в базе даиных, содержащей более 
детальную информацию. Но вскоре выяснилось, что многие пользователи пуждаются 
в более емких штриховых кодах, самостоятельно выполняющих роль портативной ба- 
зы данных, а пе только ключа в ней. Двумерный код (или 2р-код) — наиболее общее 
наименование для всего этого класса символик. Названия сте ковая символи - 
ка (stacked symbology) или многорядный код (multi-roÀw code) более точно отража- 
ют сущность серии кодов, в которых данные кодируются в виде нескольких строчек 
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обычных одномерных штриховых кодов. Название матричный код (Matrix code) 
применяется для обозначения двумерных кодов, основанных на расположении черных 
элементов внутри матрицы. Каждый черный элемент имеет одинаковый размер, а 
позиция элемента кодирует данные. 

Линейный штриховой код имеет «вертикальную избыточность», означающую, что 
одна и та же информация повторяется по вертикали. Вертикальная избыточность поз- 
воляет штриховому коду, имеющему дефекты печати (например, пятна или просветы) 
сохранять читаемость. Двумерный код содержит информацию как по горизонтали, так 
и по вертикали. Поскольку оба направления содержат информацию, теряется нозмож- 
ность использования вертикальной избыточности (заметим, что в двумерных стеко- 
вых кодах присутствует небольшая вертикальная избыточность). Борьба с ошибками 
в двумерных кодах обеспечивается за счет использования специальных контрольных 
сумм, позволяющих гарантировать достоверность вводимой информации. Как прави- 
ло, борьба с ошибками основывается на применении кода Рида-Соломона. 

Первоначально двумерные коды разрабатывались для приложений, ие дающих ме- 
ста, достаточного для размещения обычного штрнх-кодового идентификатора. Пер- 
вым применением для таких символов стали упаковки лекарственных препаратов в 
здравоохранении. Эти упаковки малы по размерам и имеют мало места для размеше- 
ния штрихового кода. Электронная промышленность также проявила интерес к кодам 
высокой плотности и двумерным кодам в связи с уменьшением размеров элемен- 
тов и изделий. Позднее возможность кодирования портативной базы данных сделала 
двумерные символики привлекательными для приложений, в которых минимизация 
размера кода не является основным требованием. Просто во многих случаях работ- 
нику гораздо удобнее непосредственно считать двумерный штриховой код с помощью 
портативного устройства, чем дозваниваться до компьютера, расположенного в офисе. 

На сегодня разработано более 20 различных символик двумерных штриховых ко- 
дов, которые отличаются формой и структурой символов, формой и возможными цве- 
тами элементов, методами упаковки информации в символах, методами и степенью 
защиты информации от искажений изображений кодов на носителях. Ниже описа- 
ны два наиболее популярных типа двумерных кодов: стековая символика РОЕ417 и 
матричная символика Datamalrix. 

Стековый код РЮЕ417. Стековая символика РОЕ417 была введена в 1991 ro- 
ду фирмой Symbol Technologies. PDF происходит от сокращения Portable Data File 
(портативный файл данных), каждая буква символа состоит из 17 модулей, каждый 
из которых содержит 4 штриха и пробела (отсю- 
да номер 417). Штриховой код открыт для обще- : 
ro пользования. Пример символа стекового кода Е ^ 
PDF417 изображен на рис. 7.2.14. ' 

Каждый символ кода PDF417 содержит crapro- 
вую и стоповую группы штрихов, увеличивающие 
надежность считывания штрихового кода. Он ко- 
дирует до 1850 буквенно-цифровых или 2710 циф- 
ровых знаков. Высокая емкость данных позволяет Рис. 7.2.14. Символ штрихового кода 
кодировать всю необходимую информацию о ye- PDF4I7 
ловеке, продукте, документе или упаковке. Снм- 
волику PDF417 рекомендуется использовать в транспортной и автомобильной про- 
мышленности, на транспортных этикетках и таможенных документах. PDF417 может 
кодировать He только текстовые, но и бинарные данные, поэтому им возможно зако- 
дировать все, что можно оцифровывать, включая цветные фотографии и отпечатки 
пальцев. Поэтому PDF417 используется также в системах идентификации личности. 
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Матричный код Data Matrix. Код Data Matrix от фирмы CiMatr!x представляет 
собой двумерный код, разработанный для размещения большого объема информаций 
на ограниченной площади поверхности. Матричный код составляется из темных и 
светлых ячеек, которые могут быть квадратными (большинство современных матрич- 
ных кодов), шестиугольными (MaxiCode) или круглыми (как в точечном коде) пс 
форме. Данные кодируются в двоичной форме (обычно темная ячейка соответству- 
ет двоичной единице; а светлая ячейка — двоичному нулю), а схема декодирования 
использует технологии обнаружения и коррекции ошибки для создания избыточно- 
сти. Матричные коды масштабируются, и их теоретическая информационная емкость 
в один бит на ячейку дает им ббльшую плотность данных, чем у стековых кодов. 
Например, символ кода Data Matrix с размером ячейки (Х-размер) B 
10 mil (0,25 мм) может закодировать максимум 2000 знаков, занимая 
около 8 кв. см, по сравнению с 25 кв.см для тех же данных у символа 
PDF417 с тем же самым Х-размером. 

Данный штриховой код может масштабироваться от 1-п!| плотно- 
сти до четырнадцатидюймовой площади и имеет теоретическую мак- 
симальную плотность до 500 миллионов символов на дюйм. На прак- 
тике плотность, конечно, ограничивается разрешающей способностью 
Рис. 7.2.15. Cum- печатающих устройств и сканеров. Код Data Matrix имеет фикси- 
вол штрихового рованную степень защиты от ошибок для каждого размера символа 
кода Data Mat- кода. Поскольку информация кодируется абсолютной позицией эле- 
rix версии ЕСС мента внутри кода, то есть позицией относительно границ кода, код 
200 не так чувствителен к дефектам печати, как традиционный штрихо- 

вой код. Схема кодирования имеет высокий уровень избыточности. 
данные рассредоточены внутри символа. Это позволяет сохранять читаемость кода 
при его частичном повреждении или потере части кода. Каждый код имеет измери- 
тельные линейки, которые выглядят, как сплошная линия по одному краю символа, и 
равномерно расположенные квадратные точки одинакового размера по другому краю. 
Эти линейки используются для определения ориентации и плотности кода. 

Существуют две основные версии данной символики. Одна использует сверточное 
кодирование для коррекции ошибок, которое использовалось в первых версиях кода 
Data Matrix, эта версия описывается как ЕСС 000-140. Вторая версия описывается как 
ЕСС 200 и использует коды Рида-Соломона для коррекции ошибок. Символы версии 
ЕСС 000-140 всегда имеют нечетное количество модулей по каждой стороне квадрата. 
Символы версии ЕСС 200 всегда содержат четное число элементов по каждой из 
сторон. Максимальная емкость символа ECC 200 (рис. 7.2.15) составляет 3116 цифр 
или 2335 букв в символе, состоящем из 144 модулей. 

Наиболее популярными применениями для Data Matrix является маркировка 
небольших предметов — таких, как электронные элементы и печатные платы элек- 
тронных приборов. Эти приложения используют способность Data Matrix разместить 
примерно 50 символов в коде размером 3 ми и тот факт, что код может быть прочитан 
при 20% контрастности печати. Код читается ПЗС-камерой или ПЗС-сканером. 

Рассмотрим теперь примеры практических систем, используюших описаниые тех- 
нологии. 


7.2.3. Система автоматического распознавания машиночитаемых докумен- 
тов. Данная система анализа растровых изображений обеспечивает высокую степень 
надежности распознавания и считывания в системах автоматизированной обработки 
машиночитаемых документов. Подобными машиночитаемыми зонами снабжены пас- 
портные, визовые и другие документы повышенной важности (рис. 7.2.16). 


73 ОБРАБОТКА ДОКУМЕНТОВ, РАСПОЗНАВАНИЕ ТЕКСТА И ШТРИХОВЫХ КОДОВ 519 


Функции системы: 

® автоматический поиск и выделение машиночитаемых зон на изображениях; 

® автоматическое разбиение выделенных машиночитаемых строк на зпакоместа, 
соответствующие отдельным символам; 

e распознавание буквенно-цифровых символов; 

® контроль и коррекция считанной последовательности снмволов с учетом струк- 
туры машипочитаемой зоны. 

Характеристики системы: 

® выделение машиночитаемых зон осуществляется независимо от их размеров, по- 
ложения и параметров угловой ориентации документа на изображении: 

® устойчивое распознавание машиночитаемых символов при низком разрешении 
(170-200 точек на дюйм); 

® надежность идентификации, характеризуемая в среднем | ошибкой считывания 
на 100 документов (на 8800 символов), при разрешении изображения документа OT 
200 dpi и времени обработки документа, не превышающем | сек. 


Рис. 7.2.16. Пример вылеления и считывания машиночитаемой ииформации на изображении доку- 
мента 


7.2.4. Система контроля качества печати машиночитаемых документов. Тре- 
бовання к качеству печати машиносчитываемых документов, изложенные в норматив- 
ных документах Международной организации по стандартизации (ISO) и Междуна- 
родной организацин гражданской авиации (ICAO), регламентируют размеры, струк- 
туру машиносчитываемой зоны (МСЗ), количество символов B ней, используемый 
шрифт, а также требования к качеству печати символов. Оформление документов 
в соответствии с этим требованиями предполагает возможность контроля и изме- 
рения параметров качества печати. Однако рекомендуемая стандартом 1501831 Tex- 
нологня проведения измерений основывается на устаревших технических решениях 
и не обеспечивает оперативного получения результатов. В связи с этим была раз- 
работана программно-аппаратная технология, на основе которой создан программно- 
аппаратный комплекс, включающий оптоэлектронную подснстему, обеспечивающую 
получение изображения ОСВ-В символов в видимом и ИК-днапазоне и программ- 
ное обеспечение для обработки и анализа изображений, позволившие количественно 
измерять основные характеристики печати МСЗ. 

Аппаратная часть комплекса включает четыре аналоговые видеокамеры, блок нн- 
фракрасной подсветки и устройство видеозахвата. Высокое оптическое разрешение, 
большой динамический диапазон лннейных преобразований сигнала обеспечивают 
необходимую точность измерений. 

На первом этапе анализа изображения производится предварительное определе- 
ние места положения отдельных символов. На втором этапе определяется точное 
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положение печатных знаков и с помощью соответствующих эталонов оцениваются 
характеристики качества печати. Для определения точного положения вычисляется 
двумерная матрица контрастного сигнала печати KCII(z, у): 


KCII(z,y) = 29-100, 
Lw 
где Г, — наибольшая яркость изображения в окрестности знака (рис. 7.2.17a). Ha ee 
основе формируется двумерное бинарное изображение В(=,у) (рис. 7.2.176). 

Далее из базы эталонов выбирается бинарная матрица изображения исследуемого 
снмвола Ba3(z,y) (рис. 7.2.17в). Эталонное изображение символа накладывается на 
его бинарное изображение и ищется наилучшее их совмещение, соответствующее 
минимуму ошибки рассогласования, 


e(z,y) = a(z, у) + В(т, у), 


где х — сумма площадей пустот BHyTDH минимального предельного контура знака 
эталона ПКЗии, В — сумма площадей пятен вне максимального предельного контура 
знака эталона ПКЗих. После этого средняя линия оттиска эталона проецируется на 
матрицу В(х,у) (рис. 7.2.172), а затем на матрицу КСП(х, у) (рис. 7.2.170). Получен- 
ные при этом изображения анализируются с целью вычисления осповных характери- 
стик печати (рис. 7.2.18). 
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Jo край чрты 

" исследуемого симвопа 
Рис. 7.2.17. Этапы обработки изоб- Рис.7.2.18. Определение naten н пустот по краю чер- 
ражения символа ты символа с помощью предельных коптуров символа 


эталона 


Основными характеристиками печати, влияющнми на идентификацню символов. 
ЯВЛЯЮТСЯ: 

контрастный сигнал печати символа, определяемый как минимальное значе- 
ние КСП из 80% наибольших значений, находящихся на средней лннии начертания 
символа, 

коэффициент вариации контраста 


KCT limax 

KC min у 

где КСПьыһ и КСПишх — наименьшая и наибольшая величины КСП на средней линии 
начертания символа; 


толщина штриха символа; параметры, определяющне расположение символов 
(межсимвольное и межстрочное расстояння, наклон символов и др.). 


КВК = 


7.2.5. Система автоматического поиска и считывания штриховых кодов. 
Предназначена для использования в автоматизированных системах складского кон- 
троля, автоматической сортировки и регистрации товаров, посылок и т. п. приложений. 
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Изображение объекта c нанесенным штриховым кодом регистрируется видеока- 
мерой и вводится в персоиальный компьютер. В ходе аиализа полученного цифро- 
вого изображения все имеющиеся штриховые коды обнаруживаются и считываются 
(рис. 7.2.19). 

Система обеспечивает следующие характеристики: 

e считываются все основные кодировки одномерных штриховых кодов (2 из 5, ITF, 
ЕАМ-13, Code 39, Code 128. Codabar), a также двумерных кодов PDF, QR Code и Data 
Matrix; 

e обнаруживаются и считываются все штриховые коды B поле зрения камеры, пеза- 
BHCHMO от их размера, положения, орнентацни и геометрических свойств поверхности, 
на которую они нанесены; 

® допускается частичное загрязнение и затирание штриховых кодов, а также цел- 
лофановое покрытие объекта поверх кодов; 

® штриховые коды распознаются на любом сложном структурированном фоне. 


Рис. 7.2.19. Примеры выделения и считывания штриховых кодов в сложных условиях 


7.2.6. Система считывания номеров денежных банкнот. Система автомати- 
чески определяет тип банкноты (валюта и номинал), считывает номер банкноты н 
ведет базу данных номеров с прнвязкой к образу банкноты (рис. 7.2.20). В качестве 
исходных даниых используется цифровое изображение банкноты с пространственным 
разрешением 200 dpi и яркостным разрешением 8 бит. 
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Puc.7.2.20. Результаты расгозиавапия тюмера банкноты 
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7.2.7. Система оценки подлинности денежных банннот. Следующие два пре: 
мера пе используют технологии счнтывания символьной информации, однако также 
связаны с анализом изображений документов. 

Исходными данными для оценки подлинности денежных банкнот в данном случё= 
являются цнфровые изображения банкнот в видимом и ИК-диапазоне. Осушеста=- 
ляются распознавание типов банкнот в видимом диапазоне и контроль подлинн:- 
сти банкнот путем сравнения их цифрового изображения в видимом и ИК-диапазоге 
(рис. 7.2.21). 

Подсистема обучения позволяет создавать и редактировать структуры, описыва;- 
щие образ банкноты. Эта подсистема ведет базу данных эталонных образов банкнс- 
(с возможностью редактирования, удалення и создания новых элементов на оснозе 
информации, получаемой со сканера), оценивает значення ошибок распознавания д7= 
всех элементов базы в числовом и графнческом виде. 

Подсистема распознавания производит распознавание сканированного образа бан:.- 
ноты на основанин базы данных, полученной при помощи обучающей программы. 
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Рис. 7.2.21. Изображения банкноты в видимом и ИК-дкапазонах, а также элементы, используемь: 
для распознавания номинала банкноты 


7.2.8. Система для оценки ветхости денежных банкнот. Система осуществляет 
анализ следующих осповных характеристик нзображения банкноты: 

• яркостный контраст элементов банкиоты; 

е налнчне бликов OT склеек (скотч); 

еналнчне загнутых углов; 
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e налнчне надрывов и прорезов банкноты; 

® наличие на поверхности бапкноты пятен масла или краски; 

e палнчие дырок н проколов. 

Система осуществляет вычисление следуюшнх основных числовых характеристнк 
ветхости банкиоты: 

e показатели яркостиого контраста (абсолютный и относительный): 

e суммарная плошадь бликов от склеек (скотч) (мм2); 

e плошади загнутых углов; 

e длина и ширина обиаруженных надрывов и прорезов банкноты (мм); 

€ суммарные ллощади пятен масла или краски (MM?); 

ecyMMaptibie площади обнаруженных дырок и проколов (Mw?). 


По результатам анализа перечисленных характернстик принимается решение об 
отбраковке BeTXHX баикнот. 
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Рис. 7.2.22. Пример анализа ветхости баикноты 


7.2.9. Система выходного контроля и учета почтовых конвертов. Система 
выходного контроля представляет собой программно-аппаратный комилекс, устанав- 
ливаемый после производствениого коивейера и предназначенный для регистрации и 
учета почтовых конвертов. выходящих с конвейера. Почтовые конверты промаркиро- 
ваны штриховым кодом типа Data Matrix. 

Функции системы: 

e непрерывный ввод с видеокамеры цифрового изображения ленты конвейера: 

® автоматическое обнаружение на цифровом изображении почтового конверта; 
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e обнаружение и считывание двумерного штрихового кода Data Matrix на конверте: 
e регистрация идентнфикатора почтового конверта в базе данных. 
Характеристики конвейера: 

€ скорость двнжения конвертов от 0,5 до 3 м/с; 

e мипимальное расстояние между конвертами не менее 0,2 м. 

Характеристики системы: 

e размер цифрового нзображения — 640 x 480 пикселов; 

e вероятность обпаружения и считывания штрихового кода — 0,99. 
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Рис. 7.2.23. Система выходиого коитроля и учета почтовых коивертов 
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7.3. Автоматизация измерений и технический контроль 


7.3.1. *Цифровая фотограмметрия и бесконтактные измерения. 
Фотограмметрический метод бесконтактных трехмерных измерений. Развитие 
современной вычнслнтельной техники н средств получения цифровых изображений 
обеспечнло надежный фундамент для создания бесконтактных систем трехмерных из- 
мерений, основаниых на фотограмметрическом подходе, позволяющем определять 
пространственные координаты объекта по ero разноракурсным изображениям (фото: 
графням). В настоящее время фотограмметрическне методы широко используются для 
построения карт и моделей местности по аэро- и космическим снимкам, Снимкн архи- 
тектурных сооружений нспользуются для измерения необходимых пространственных 
размеров зданнй. Фотограмметрические методы применяются в судостроении (внут- 
реннне н внешние обмеры элементов корабля), медицине, микроизмерениях и многих 
другнх областях. 

Развнтие фотограмметрни от появления фотографии как средства получения H306- 
ражений до недавнего временн шло, главным образом, по линни решення задач, воз- 
ннкающих при проведении наземных съемок н аэрофотосъемок для целей картогра: 
фирования. Использование фотограмметрии для измереннй близко расположенных 
объектов (ннженерной фотограмметрии) ограничивалось необходимостью использо- 
вания дорогостоящей и низкопроизводнтельной аналоговой измерительной техники 
(стереокомпараторов, стереометров, стереопланиграфов). Однако распространение вы- 
сокопронзводительной вычислительной техники, с одной стороны, и совершенство- 
вание средств получения цифровых изображений, с другой стороны, обусловили 
необходимые предпосылки для появления высокоэффективных цифровых аппаратно- 
программных комплексов для практнческой инженерной фотограмметрни. В послед- 
нне десятилетня стало возможным применять методы машинного зрения для решения 
задач бесконтактных измерений и создания трехмерных компьютерных моделей объ- 
ектов сложной формы, и, тем самым, обеспечивать высокую точность и высокую 
степень автоматизации измерений в промышленности и на производстве. 

Основными задачами, которые требуется решить при определении трехмерных ко- 
ординат точек объекта фотограмметрическнми методамн, являются следующие. 

Выбор конфнгурации съемки. Качество измерений существенно зави- 
снт от выбранных масштаба съемки, расположения съемочных камер, собственной 
формы объекта, а также от ограничений, налагаемых условиями съемки. Поэтому 
для обеспечения требуемых показателей качества модели в каждом конкретном слу- 
чае необходимо для заданного класса объектов решать задачу выбора количества, 
параметров и расположения камер. 

Задача калибровкн. Под задачей калибровки понимаются определение 
адекватной матсматнческой модели съемки (reoMeTpHH получения изображения) н 
оценка параметров дапной моделн. 

Задача стереоотождествления. Проблема стереоотождествления за- 
ключается в идентификации на разноракурсных (стерео) снимках соответствующих 
двумерных изображений одной н той же заданной трехмерной точки поверхностн 
объекта и высокоточном измеренни ее координат на этих изображениях. 

Задача расчета трехмерных координат точек объекта 
сложной формы. Стереосистема машинного зрения может определить трехмер- 
ные коордннаты тех точек объекта, которые одновременно видны обеими камерами. 
Поэтому даже для не очень сложных поверхностей по стереопаре изображений может 
быть восстановлена лишь частичная модель (фрагмент) объекта. 
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Рассмотрнм далее основные элементы фотограмметрического решения задач трех- 
мерных бесконтактных измерений. 

Математическая модель камеры. В траднционных фото: н видеокамерах, ис: 
пользуемых в технических системах, снимок формируется по закону центрального 
проектирования, когда точка снимка получается как точка пересечения прямой, про- 
ходящей через центр проекции (точку съемки) и точку объекта, с плоскостью снимка. 

Для опнсання геометрической моделн камеры вводятся две системы координат. 

Пиксельная система координат цифрового снимка (Орхерхурх) нмеет начало 
коордннат з левом верхнем углу оцнфрованного нзображения. Начало коордннат Bhl- 
бирается таким образом, что левый верхний пнксел изображения имеет координаты 
(0,0). Ось Op«zprx направлена вправо вдоль строк нзображения, а ось OpixYpix ВНИЗ. 
Единицей нзмерения координат в этой снстеме является пнксел. 

В этой системе координат измеряются координаты точек оцифрованного изобра- 
ження 

Пространственная система координат цифрового снимка 5ху2 нмеет начало 
координат в центре проектировання. Отрицательное направленне оси Sz совпадает c 
главной осью съемочной камеры. Оси Sz и Sy лежат в плоскости снимка н образуют 
вместе с осью 52 правую систему координат. Ось Sz параллельна оси Оџхху; NHK- 
сельной системы координат, а ось Sy параллельна оси OpixYpix пиксельной системы 
координат н направлена в противоположную сторону. 

При рассмотрении модели камеры считается, что плоскость снимка лежит впе- 
реди центра проектирования, поэтому любая точка снимка в этой системе имеет 
координаты (X,Y, —f). Величина f равняется расстоянию от центра проектирования 
до плоскости снимка и всегда считается положнтельной. 

В зтой системе координат записываются координаты точки снимка в условиях 
коллинеарности и при вычислении пространственных координат точек объекта. 

Рассмотрим связи между пиксельной Oyxzpixjpx и пространственной Szyz систе- 
мами координат снимка. Пусть (Spix, Ypix) — пнксельные координаты точки снимка. 
Тогда переход к искаженным коордннатам точки снимка осуществляется по форму- 
лам: 


Те Tm. (Zpix - bz), 
Va = ту · (by — Уж), 
где m, т, — размер элемента дискретизации изображения, bz, b, — пиксельные 


координаты главной точки снимка. 
Нелинейные искажения изображения вводятся в виде 


Az = ау + zalar? + a;ri + agr?) + ад (т? + 222) + 2üszaya, 
Ду = aoa + yo(air? + ar’ + agr?) + as(r? t 2y2) + 2автауа, 


где r? = 32 + y2. 

Преобразование пиксельных координат точкн снимка осуществляется следующим 
образом: 

ә пиксельные координаты тр»,У» преобразуются к нскаженным координатам 
Та, Yo; 

вычисляются нелинейные искажения Ах, Ду для данной точки; 

®вычисляются истинные координаты х,у точки снимка путем прибавления к pac- 
счнтанным искаженным координатам соответствующих нелинейных искаженнй: 


T = Ta + Ат, 
у = Ya + Ay. 
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При решении задачи вычисления координат точки снимка, соответствуюшей дан- 
ной точке поверхности, необходимо по нстннным координатам (=, ;) вычислить NHK- 
сельные координаты (х, pix) точки снимка. В дальнейшем все геометрические со- 
отношения записываются для истинных координат снимка (х,у), связь которых C 
пиксельными координатами приведена выше. 

Положенне снимка относительно выбранной фотограмметрической системы коор- 
зинат, в которой измеряются пространственные координаты точек объекта, определя- 
ется вектором координат точки съемки хоу и матрицей вращения А f, которая является 
функцией трех углов последовательных поворотов системы координат, 

В аэросъемке принято использовать следующую последовательность поворотов 
(м, и, к): 

e первый поворот вокруг оси — ОУ фотограмметрнческой системы координат; 

® второй — вокруг новой оси ОХ; 

®третнй — вокруг оси OZ системы координат, связанной с камерой. 

Элементы матрицы вращения находятся из следующих соотношений: 


ад = COS X - COSK — sin & · Bin w · sin K; 
адо = COs Ww · Sin K; 

@13 = зіп а - cosK + cosg sinw - sink; 
адр = —cos«- sink — sin & sinw · cosK; 
422 = COS W - COBK; 

23 = —sin« · віпк + cos« sinw · СОБК; 
аз = —sin«-:cosq; 

азо = -Sin W; 

Q33 = COS X - COSW. 


Отсюда 


а. 
ЕРТТЕР (=) 
33 


= — arcsin 032; 


912 
к = мс | — |. 
222 
При решении фотограмметрических задач используются условня коллинеарности 


(нахождения на одной прямой) для точки съемки, точки объекта и точки снимка 
следующего вида: 


dr 
adet 
dzy 
ey = d, + T. 
rne 
dz 
dy = Aj(X — хоу). 
d, 


B прнведенных условнях невязки е; и Cy измеряются в предметном пространстве B 
плоскости, параллельной плоскости сннмка. 
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Калибровка видеокамер. Рассмотрим удобный с практической точки зрения ме- 
тод калибровки, который заключается в следующем: 

® изготавливается специальное калибровочное поле (плоский стенд) со специально 
помеченными точками, координаты которых заранее нзвестны с высокой степенью 
точности; 

® производится съемка большого числа разноракурсных снимков калибровочного 
поля; 

ена каждом снимке измеряются координаты всех видимых точек калибровочного 
поля; 

® для каждой точки каждого снимка записываются условия коллинеарности центра 
проектирования, точки снимка с учетом искажений и точки калибровочного поля; 

ө ло методу наименьших квадратов находятся значения оцениваемых параметров 
(в которые включаются и параметры камеры), соответствующнх минимуму суммы 
квадратов невязок условий коллинеарности. 

При проведении калибровки в вектор оцениваемых параметров включаются плано- 
вые координаты определяемых точек калибровочного поля, элементы внешнего ориен- 
тирования всех снимков, а также элементы внутреннего ориентирования H параметры 
нелинейных искажений всех камер комплекса. 

Наиболее трудоемкой ручной операцией при использованин данного подхода к ка- 
либровке является измерение большого количества координат опорных точек калибро- 
вочного поля на множестве разноракурсных изображений. Пусть калибровочное поле 
содержит 49 точек, видимых с двух камер на 15 снимках, полученных каждой каме: 
рой, тогда для проведения калибровки необходимо с высокой точностью определить 
координаты 1470 точек. Поэтому в задачах ближней фотограмметрии для применения 
подобного метода калибровки необходнмо решить вопрос автоматической идентифи- 
кации точек снимков, что достигается применением в качестве опорных точек спе- 
циальных кодированных меток, подлежащих автоматическому распознаванию (деко- 
дированию). Прн этом к алгоритму распознавания и структуре меток предъявляются 
два следующих основных требования: 

® возможность определения координат центров меток с субпиксельной точностью: 

• высокая надежность декодирования номера метки. 

Внешнее ориентирование камер. Необходимым этапом при построении фото- 
грамметрического измерительного комплекса является определение элементов внеш- 
него ориентирования камер. В результате выполнения процедуры внешнего ориен- 
тирования не только определяется взаимное расположение камер, но и фиксируется 
фотограмметрическая система координат комплекса. 

Для проведения внешнего ориентирования используется то же калибровочное по- 
ле, что и в операции калибровкн. 

Процедура внешнего ориентирования состоит из следующих этапов: 

e установка калибровочного поля в исходное положенне, определяющее фотограм- 
метрическую систему координат (в дальнейшем элементы внешнего ориентирования 
снимков будут определяться относительно именно этой системы); 

® получение снимков калибровочного поля в этом положенни всеми камерами ком- 
плекса; 

®установка калибровочного поля в несколько дополнительных положений (при 
проведении ориентирования измерительного комплекса калибровочное поле устанав- 
ливается в два дополнительных положения вблизи ближней и дальней границы рабо- 
чей области комплекса соответственно); 

® получение снимков калибровочного поля в дополнительных положениях всеми 
камерами комплекса; 
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® распознавание кодированных меток на всех полученных снимках, 
® вычисление элементов внешнего ориентирования по методу наименьших квадра- 
тов при условии минимума невязок условий коллинеарности вида 


d,z 
Cr = d, + — 
f 
dy 
€, =d + —, 
где 
dz 
dy = А; (As (x + Хот) i Хоу), 
d; 


где Åm(Am:Wm:Km) И Хот — соответственно матрнца вращения и вектор сдвига 
калибровочного поля в дополнительных положениях. 

При проведении внешнего ориентирования в вектор оценнваемых параметров вхо- 
дят элементы внешиего ориентирования всех камер комплекса и параметры, опреде- 
ляющие положение калибровочного поля в дополнительных положениях. 

Решение задачи стереосоответствия. Структурироваиный подсвет. После того 
как в результате проведенных операций калибровкн и ориентировання геометрическая 
модель стереосъемки стала известна нам со всеми своими параметрами, мы в принци- 
пе готовы к решению задачи реконструкции трехмерных координат точек снимаемой 
поверхности. При этом, для того чтобы вычислить трехмерные координаты любой 
точки поверхности, необходимо лишь определить положение ее проекции на снимках 
всех камер, используемых в измерительном комплексе. Иными словами, нам необ- 
ходимо установить соответствие каждой интересующей нас точки на изображении, 
полученном от одной камеры системы, ее же изображениям на снимках, полученных 
от других камер системы. Конечно, в лабораторных условиях оператор измерительного 
комплекса в состоянии указать такие соответствующие точки разных снимков вруч- 
ную, но в современных измерительных системах, используемых для реконструкции 
трехмерной формы объекта, необходимо измерять за короткие промежутки времепи 
тысячи и даже сотни тысяч точек. Поэтому возникает задача автоматнческого опре- 
деления соответствующих точек на нзображениях от нескольких камер, называемая 
также задачей установления стереосоответствия. 

Как было описано выше, в случае калибровочного поля в решении этой задачи нам 
помогает обнаружение специальных меток, имеющих уникальные номера. После рас- 
познавания меток точки с номером | считаются соответствующими на всех снимках, 
также точки с номерами 2, 3 и так далее. Однако на реальных изображениях, на- 
пример, земной поверхности, получаемых при аэрофотосъемке, никаких специальных 
меток нет. Задача установления стереосоответствия в таком случае может решаться 
только путем математического (папример, корреляционного) сопоставления окрестно- 
стей соответствующих точек, которые должны выглядеть достаточно «похожими» C 
учетом разницы в ракурсе съемки. Поэтому в приложениях так называемой «дальней» 
фотограмметрии задача определения стереосоответствия точек является ключевой за- 
дачей стереореконструкции и сопряжена с целым рядом проблем, ошибок и специфи- 
ческих трудностей, связанных с неоднозначностью результатов анализа изображения, 
особенно в малоинформатнвных областях, лишенных характерной контрастной тек- 
стуры, способствующей надежному отождествлению соответствующих и различению 
несоответствующих точек поверхности. 
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К счастью, в приложениях инженерной фотограмметрии, в условиях работы на 
небольших дальностях с объектамн небольшого размера (до единиц метров), мы име- 
ем возможность искусственно создавать такую специальную текстуру на исследуемой 
поверхности за счет специального структурированного подсвета. Такой подсвет мо- 
жет осуществляться одной или несколькими линиями, регулярной решеткой, множе- 
ством точек или каким-либо еще способом. Важно лишь, чтобы соответствующее про- 
граммное обеспечение позволяло использовать дифференциацию точек нзображения, 
создаваемую структурированным подсветом, для решения задачи стереоотождествле- 
ния. В случае если количество подсвеченных на одной стереопаре точек недостаточ- 
но для построения полной моделн поверхности, используют ряд последовательных 
стереогар одного и того же объекта, причем от снимка к снимку элементы структу- 
рированного подсвета перемещаются по поверхности — за счет движения нсточника 
подсвета относительно неподвижного объекта либо за счет движения самого объекта 
(например, на конвейере или специальном поворотном устройстве). В таком случае 
говорят о фотограмметрическом «сканировании» поверхности объекта. 

Рассмотрим простейший вариант «линейного» структурированного подсвета, при 
котором исходными данными для построения модели поверхности являются пиксель- 
ные координаты подсвеченных одной коднрованной вертикальной линией точек CHHM- 
ков всех камер. 

В случае двух камер для получения пространственных координат соответствую- 
щих точек необходимо решнть задачу идентификации точки профиля правой камеры, 
соответствующей данной точке левой камеры. По координатам соответствующих TO- 
чек можно найти пространственные координаты точки в фотограмметрической систе- 
ме координат. 

Задача нахождения соответствующей точки на правом профиле может быть ре- 
шена путем приведения координат точек снимка к нормальному случаю съемкн в 
базисной системе координат (см. ниже). При этом ординаты соответствующих то- 
чек будут равны. Поэтому каждой точке левого сннмка будет соответствовать точка 
правого снимка с равной ей ординатой. Абсцисса соответствующей точки находится 
линейной интерполяцией между ближайшими узлами ломаной. 

Приведение координат точек снимков к нормальному случаю съемки. Опре- 
деление элементов взаимного ориентирования по внешнему. Для решения этой 
задачи используется базисная система координат, которая вводнтся, как принято в 
аэросъемке. Ось Х этой системы направлена по базнсу фотографирования (от ле- 
вого снимка к правому), а направление остальных осей выбирается таким образом, 
что угол w при переходе от базисной системы координат к системе координат левого 
снимка B последовательности поворотов ‘с, W, к) равен нулю. 

Пусть 


b, = Xof2 — Xoj1 
— вектор координат базиса в фотограмметрической системе координат. Тогда 
bi = Ai b, 


— вектор координат базиса в системе координат, связанной с левой камерой. 

Обозначив координаты вектора b, через (bz, by, b:}, можно записать выражения для 
углов последовательных поворотов снстемы координат левого снимка относительно 
базисной системы, которые могут быть получены следующим образом. 
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Координаты вектора базиса в системе координат снимка определяются из COOTHO- 
шений: 


an @12 0 16| ап 
a21 022 023 0 = | aa 
a31 @32 азз 0 а31 


На основании формул для элементов матрицы через углы последовательных поворотов 
при w = 0 можно записать 


а} = СОЅ @ · COSK; 


а2 = — сова · sink; 
аз = ~ѕша. 
Тогда 
х агсві bz 
-— п | |; 
СУД 
w = 0; 


= —arctg (2). 
t 


По полученным значениям углов может быть вычислена матрица перехода от базисной 
системы координат к системе координат Аша, связанной с левой камерой. 

После этого матрица перехода от базисной системы координат к системе, свя- 
занной с правой камерой, может быть найдена путем последовательного перехода от 
базисной к фотограмметрической системе координат с матрицей Ab и последующего 
перехода к системе координат правого снимка с матрицей Àj» по формуле 


An = Ag) AT, 


где Ачь = АГА — матрица перехода от фотограмметрической системы координат 
к базисной, получаемая последовательными переходами от фотограмметрнческой си- 
стемы координат к системе координат левого снимка с матрицей Ag; и перехода от 
системы координат, связанной с левым CHMMKOM к базисной с матрнцей Aj. 

Пересчет координат точек первого исходного снимка осуществляется по следую- 
щим формулам: 


dz E i 
di | =А | m |; 
4.1 -h 
dz 
ты = є; 
f dz) 
zi dj 
уы = Do 


Для второго снимка пересчет осуществляется по аналогичным формулам: 
4:2 $ T2 
d | =A] $» |; 
4.2 -h 
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dz} 
tp = fji; 
4:2 
dy2 
ую —--h. 
4:2 


Преобразование координат точек спимков в базисную систему можно выполнить для 
любого значения фокусного расстояния преобразованных координат. В данном случае 
оба сннмка приводятся к фокусному расстоянию левого снимка. Равенство фокус- 
ных расстояний приведенных снимков необходимо для выполнення искомого условия 
равенства ординат соответствующнх точек. 

Вычисление пространственных координат точек поверхности. После решения 
задачи стереосоответствия путем приведения координат точек к нормальному случаю 
съемки пространственные координаты каждой иитерссующей нас точкн трехмерной 
поверхности объекта вычисляются по формулам 


У i [ты 
Y |= yu |: 
Thl — 202 
2 -fi 
X 
Xg = Xofi + AD, Y 
Z 


Таким образом, задача стереореконструкции трехмерной поверхности объекта, ска- 
нируемой линейным структурированным подсветом, с математической точки зрения 
оказывается полностью решена. 


7.3.2. Фотограмметрический комплекс для бесконтактных измерений. Рас- 
смотрим в качестве прнмера практического приложения в областн бесконтактных 
трехмерных измереннй фотограмметрический комплекс, реализованный в Гос НИИАС 
на базе промышленного компьютера PXI производства фирмы National Instruments 
(США). Поскольку это пример построения практической системы машииного зрения, 
мы будем уделять внимание особенностям аппаратного обеспечения, также определя- 
ющим финальчые параметры системы в целом. 

Аппаратное обеспечение комплекса. Рассматриваемый фотограмметрический 
комплекс для бесконтактных измерений включает следующие аппаратные KOMIIOHeH- 
ты: 

e промышленный компьютер PXI-1002; 

e плату захвата видеосигиала (фреймграббер); 

® коммутатор входного видеосигнала; 

e ПК-управляемый источник структурированного подсвета на базе устройства no- 
зиционирования и лазерного источника структурироваиного света; 

e две ССО-видеокамеры. 

Промышленный компьютер отличастся от обычного офиского ПК па базе anano- 
гичного процессора возможностыо беспрерывной круглосуточной работы в условиях 
реального промышленного производства, характеризующихся повышенной влажно- 
стью, вибрацией, ударами, запыленностью и другими вредными факторамн и воздей- 
ствнями. Плата видеозахвата РХІ М-1409 обеспечнвает ввод в компьютер монохром- 
ных изображений с двух ССО-камер типа PULNiX TM-260NIR. 
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Структурированиый подсвет измеряемого объекта обеспечивается лазерным ис- 
точииком структурнрованного света Lasiris'M SNF Laser. Даниый источник струк- 
турироваиного света (ИСС) обладает равномерным распределением интенсивности в 
проецирусмых шаблонах, варьирусмыми длиной волны излучения н выходиой мощно- 
стью, защитой от перегрева, перегрузок электропитания и поставляется в исполнении, 
защищенном от ударов и вибрации. В рассматриваемом измерительном комплексе ис- 
пользуется источник SNF-501-660-35, геперирующий на выходе одну вертикальную 
линию. 


Рис. 7.3.1. Компьютер PXI-1002, видеокамера PULNIX TM-260NIR и лазерный источник структу- 
рированиого света SNF-501-660-35 


Перечисленные элементы аппаратного обеспечения комплекса представлены на 
рис. 7.3.1. 

Для автоматизацни процесса нзмереннй лазерный нсточннк структурированиого 
света установлен на устройстве познционнровання, управляемом от персонального 
компьютера (рнс. 7.3.2). Устройство познционирования управляется через внешннй 
коитроллер, имеющнй параллельный ннтерфейс с персональным компьютером. 


Рис. 7.3.2. Лазерный источиик и устройство познционирования 


Программное обеспечение комплекса. Программное обеспеченне снстемы бес- 
контактных фотограмметрнческнх нзмерений включает модуль калнбровкн снстемы 
н модуль множественных трехмерных нзмереннй. Модуль калнбровкн служнт для 
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определения параметров ориентнроваиня камер, что обеспечнвает заданную точность 
нзмереннй координат. Модуль сканнровання служнт для проведения в автоматнче- 
ском режнме сеаиса нзмереннй точек поверхностн объекта, одновременно вндимых с 
обеих камер. 

Модуль калибровки. Калнбровка заключается в определеннн внешних и виутрен- 
ннх параметров орнентнрования камеры. Для проведення калнбровкн нспользуется 
спецнальная калибровочная пластнна с расположеннымн на ней нзображеннямн ко- 
днрованиых меток. Ha изображенин пластнны, полученном каждой нз камер, распо- 
знавание меток пронсходнт автоматнческн, C вычнсленнем коордниат центра меткн 
H ее номера. Данная процедура пронзводнтся для обеих камер прн разлнчных поло- 
женнях калнбровочной пластнны. Всего таких положеннй 15. На осиове полученных 
данных, а также нзвестных (заранее измеренных вручную с высокой точностью) ко- 
ординат меток на самой пластнне, вычнсляются параметры ориентирования камер. 
Результаты калнбровкн сохраняются в файлах заданного формата, которые впослед- 
ствин используются модулем сканнрования в процессе расчетов. 

Внешний BHA модуля, предпазначенного для проведення процедуры калибровкн, H 
нзображенне калибровочного поля показаны на рнс. 7.3.3. 


Рис. 7.3.3. Экраииая форма проведения процедуры калибровки и изображенне калибровочиого поля 


Модуль сканирования. В опнсываемой системе реконструкция поверхностн объ- 
екта рсалнзустся на основе подсветкн лазером B внде вертикальной лннин. Особенно- 
стью данного нсточннка подсвета является высокая яркость, позволяющая проводить 
процесс сканнровання прн достаточном уровне внешней освещеиностн (по меньшей 
мере, прн дневной комиатиой освещенности). Устройство, генернрующее лазерный 
подсвет, размещается Hà поворотном шаговом двнгателе. В процессе скаинровання 
лазерный луч пробегает по всей поверхности объекта. В каждом положенни луча 
пронсходнт съемка объекта с двух камер. На осиове двух полученных нзображе- 
ннй освещенного профиля объекта восстанавлнвается сам пространствеиный про- 
фнль. Чем меньше шаг сканнровання, тем больше требуется для него временн, по 
тем более детальиой получается модель. 

Внешний BHA модуля реалнзующего гроцесс сканнровання показан на рнс. 7.3.4. 
Результаты нзменення параметров сразу отображаются в окне (рнс. 7.3.4 справа). 

За каждый шаг сканнровання с камер сннмаются два изображення. На каждом 
нзображеинн пронзводнтся выделеине лнннн. Лнния представляется в внде массива 
двумерных точек. Получениые координаты точек сохраняются в памятн для после- 
дующей обработкн. Далее для каждой пары лнннй по нх двумериым координатам 
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с нспользованнем нзвестных заранее параметров орнеитнровання камер вычнеляется 
соответствую:цнй нм трехмерный профнль объекта. Множество такнх профнлей об- 
разуют поверхность объекта, состояшую нз мпожества точек. Данное облако точек 


Рис. 7.3.4. Экраниая форма процесса сканирования и результат выделения структурированного под- 
света HE текущем шаге сканирования 


подвергается процедуре трнангуляцнн. По- 
лученный в результате работы снстемы от- 


сканированный трехмерный объект (поверх- 
ность) представляется в внде трехмерной 
перегуляриой cerKH, состоящей нз соедниен- 
ных между собой соседних треугольннков. 
Пример результата работы комплекса показаи 
на рнс. 7.3.5. 

7.3.3. Система автоматического выде- 
ления и фильтрации следа частиц. Зада- 
ча выделення треков частиц — одна нз пер- 
вых классических задач обработкн нзобра- 


жеинй. В частности, в свое время нмепио 

эта задача породила нсследоваиня по выделе- рис. 7.3.5. Результат работы модуля скани- 
нню прямолннейных объектов на нзображе- рования 

ннях, а также нинцннровала разработку psi- 

да структурно-лингвнстнческнх методов pac- 

познавання образов. 

В даниом случае речь ндет не об аиализе нзображеинй траскторнй фнзнческнх 
частнц атомного нли субатомиого уровня, а об нсследованнн картнны массового нс- 
течення горячнх частнц макроуровия в спецнальном фнзнческом экспернмепте. Прн 
этом, хотя регнстрацня нзображеинй движущнхся горячих частиц производнтся прн 
помощи скоростной вндеосъемкн, за время экспознцнн вндеокамеры частнцы все рав- 
но успевают пройтн значнтельное расстояние, в результате чего нх образы Ha циф- 
ровом нзображеннн представляют собой размытые прямолннейные отрезкн. По длнне 
получнвшегося отрезка-следа можно суднть о скоростн, по его толщине — о раз- 
мере, а по яркостн — о температуре соответствующей частнцы. Сиецнфнка аналнза 
нзображеинй в данной задаче связана с тем, что, во-первых, средн множества прямо- 
лниейиых объектов пеобходнмо выделять только те OTDC3KH, которые удовлетворяют 
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ряду условнй (находятся в фокусе камеры н не пересекаются с другнмн трекамни. 
во-вторых, нзмерения параметров треков необходимо пронзводить c субинксельной 
точностью, поскольку разннца B толщнне треков порядка нескольких десятых долей 
пнксела в данном случае соответствует различным тнпоразмерам частнц в объектиом 
пространстве. 


Рис. 7.3.6. Результаты обработки частнц Рис. 7.3.7. Результаты обработкн частин 


Разработаниая снстема компьютерного зрення позволнла автоматнзнровать про- 
цесс обработкн н аналнза 12-бнтных цнфровых нзображеинй следа частнц, получен- 
ных скоростной фотосъемкой. 

Снстема обеспечивает надежное выделеине следа частнц с субпиксельной точно- 
стью н нх фнльтрацию согласно следующнм параметрам: 

® миннмальная н макснмальная длнна следа частнцы; 

• максимальная ннтенснвность по длине следа; 

e поперечный размер следа частнцы с учетом угла следа; 

® угол иаклона следа частнцы относнтельно граинц нзображення. 

Частнцы с пересекающнмся следом нлн частнцы на граннцах нзображення от- 
фнльтровываются. 

Снстема также содержнт уинверсальное средство аиалнза цнфровых нзображення. 
позволяющее стронть гистограмму, проекцнн н профнлн нзображеиня, прнменять к 
нзображеиню как стаидартные, так н пронзвольные LUT прсобразоваиня, отображать 
значення ннтенснвностн нзображення в внде трехмерной поверхиостн н т. д. 

На рнс. 7.3.6 н puc. 7.3.7 показаны результаты обработкн. Цветом помечены Bii- 
деленные трекн частнц, удовлетворяющне задаиным параметрам. 


7.3.4. Система автоматизированного бесконтактного измерения объема круг- 
лых лесоматериалов. Задача нзэмерения объема Neco- н пиломатерналов является 
одной нз чрезвычайио актуальных задач в областн лесозаготовкн н деревообраба- 
тывающей областн в целом. К качеству н составу поставляемых лесоматерналов = 
мнре предъявляются достаточио высокнс требовання, что определяет необходнмосте 
контроля объема н параметров поставляемых партий лесоматерналов на всех этапах 
HX пронзводства н транспортнровкн — от заготовкн до иепосредственной поставки 
потребителю. Прн этом нанболее распространенные на сегодняшинй день ручные ме- 
тоды нзмерений (при этом нзмеряются габарнтиые размеры связкн древесины. после 
чего объем связкн определяется по таблнчным формулам) обеспечнвают результаты € 
погрешностью до 25-30%. Бескоптактные методы измереиня объема лесоматерналоз 
методамн машннного зрення н цнфровой фотограмметрнн позволяют обеспечнть TOY- 
ность нзмереиня объема связкн порядка 3-5%, что дает несомненный н существенный 
экоиомнческнй эффект. 
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Разработанный аппаратно-программпый комплекс предназначен для проведення 
днстанцнонных измереннй параметров пачки древесниы па основе стереометрической 
съемки. 

Состав комплекса: 

® персональный компьютер; 

® плата захвата н оцнфровкн изображений; 

® две цнфровые вндеокамеры высокого разрешення; 

® специальное программное обеспечеине. 

Функиии комплекса: 

® просмотр видеонзображеиня с левой н правой камеры па моннторе ПК; 

® захват н оцнфровку видеонзображеннй н сохраненне нх в файлы; 

e проведеине нзмереннй трехмерных размеров объекта B ручиом режнме; 

® понск границ среза ствола н расчет его площадн в полуавтоматнческом режиме; 

® понск всех срезов стволов в пачке расчет нх площадей в автоматнческом режиме; 

• понск границ пачкн древесниы расчет ее площади в автоматнческом режнме. 

Характеристики комплекса: 

® точность нзмерення линейных размеров отдельных торцов стволов — 1%; 

® время получения н обработки одной стереопары в автоматнческом режнме — 0,5 
мни; 

® вероятпость автоматнческого выделеиня каждого отдельного торца ствола — 
0,95, 

Ha puc. 7.3.8-7.3.10 продемонстрирована работа снстемы бесконтактного измере- 
HHI круглых лесоматериалов. На puc. 7.3.8 показан внешннй BHA пачкн древесины, на 
рис. 7.3.9 — нсходная стереопара, а результаты апализа трансформнрованного H306- 
раження — на рис. 7.3.10. 


Рис. 7.3.8. Пачка древеси- Рис. 7.3.9. Исходная стереопара Рис. 7.3.10. Результа- 
им ты анализа 


7.3.5. Система определения гранулометрического состава рудной массы. 
Данная снстема разработана ИИТ н ООО «НВП Центр-ЭСТАгео». Задача определе- 
ння гранулометрнческого состава тех нлн ниых сыпучнх матерналов (рудиой породы, 
землн, продуктов химнческого пронзводства) также является весьма востребованной 
задачей в областн техинческого контроля B горнодобывающнх, перерабатывающнх, 
хнмнческих н других областях промышленностн. С математической точкн зрення за- 
дача гранулометрнн своднтся к аналнзу нзображеннй гранулнрованного (разбнтого 
на отдельные комки нлн гранулы) матернала с целью оценкн процентиого содержа- 
ння в данном матернале гранул разлнчного размера н/нли формы лнбо понска и 
отделення частнц спецнфнческой формы H размера. Прн построеннн промышленных 
гранулометрическнх снстем следует учнтывать, что реальные условня эксплуатацни 
такнх снстем техинческого зрення зачастую бывают связаны C запыленностью, BHÓ- 
рацней н другнмн вреднымн факторами, влняющнми на аинаратные составляющне 
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аппаратио-программиых комплексов, а также на точность практнческн осуществнмых 
измереннй. Шнроко распрострапены также лабораторные варнанты грапулометрнче- 
скнх систем (прежде всего — на базе мнкроскопнческой съемкн). созданне которых 
пе сталкнвается C опнсаниымн проблемамн, по, в свою очередь, нмеет собствеую 
спецнфику. связанную. прежде всего, с правильным подбором подсвета. 

Созданный в ИИТ программно-аппаратный комплекс предназначен для опреде- 
лепия гранулометрнческого состава руды, подаваемой на горно-обогатнтельную фаб- 
рнку. Спецнфикой предложениого решения является нспользованне стереоннформа- 
цнн. По стереопаре нзображеннй с высокой точностью восстанавлнвается наблю- 
даемая трехмерная поверхиость рудной массы, после чего к полученной цнфровой 
моделн применяется ряд спецнальных процедур структурного анализа нзображеннй 
(рне, 7.3.11-7.3.14). Для структурнрованной поверхностн выполняется автоматнческая 
оценка размеров выделенных гранул, исследуется нх распределение по размеру, стро- 
ится гнстограмма распределення. 


Рис. 7.3.11. Исходная crepeotiapa Рис. 7.3.12. Модель по- 
верхиости рудиой массы 


Рис. 7.3.13. Анализ изображений Рис. 7.3.14. Структуриро- 
ванная поверхность 


Все процессы обработки полностью автоматнзированы. Надежность н точность 
результата, получаемого по данной методнке, значнтельно превышает аналогнчные 
показателн, получаемые па основе единнчного нзображення. 


7.3.6. Система автоматического измерения угла схождения сварного шва. 
Данный прнмер демонстрнрует одну нз тнповых задач внзуального техннческого кон- 
троля, предполагающую автоматнческое нзмеренне некоторого контролируемого тех- 
ннческого нлн техпологнческого параметра по цнфровым нзображенням с целью Opra- 
ннзацнн обратной связн C контролнруемым технологнческнм процессом. По результа- 
там 
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нзмереннй компьютер формнрует ко- 
манды нсполннтельному устройству, 
которое воздействует на объект нз- 
мереннй, н за счет такой обратной 
связн снстема техинческого 3pellHf 
обеспечнвает нахожденне нзмеряе- 
мого параметра в заданном днапа- 
зоне значення. 

Прн сварке труб нз лнстового ма- 
тернала возннкает проблема опреде- 
лення качества сварного шва мето- 
дамн неразрушающего контроля. Од- 
HHM нз параметров, влняющнх на Ka- 
чество сварного шва, является так Рис. 7.3.15. Изображение сварного шва с выделениы- 
называемый угол схождення. Бы- мн краевымн элемеитамн н линнямн, по которым нро- 
ло предложено контролнровать угол изводится оценка угла схождения 
схождення сварного шва путем ана- 
лнза изображеннй этого угла. получаемых непосредственно в ходе сваркн. В описы- 
ваемой снстеме решалась задача автоматнческого обнаруження краев лнста н опре- 
делення велнчниы угла схождення этнх краев (рнс. 7.3.15). Разработанная снстема 
позволнла обеспечнть автоматическое нзмеренне н контроль граннц угла схождення 
c субпнксельной точностью. 


7.3.7. Система автоматического распознавания и подсчета некондиционных 
кристаллов на круглой пластине. Еще однн прнмер снстемы технологнческого кон- 
троля. Задача возннкла в областн нзготовлеиня крнсталлов для электронной промыш- 
лепиостн. Технологнческнй процесс изготовлення крнсталлов устроен такнм образом, 
что на определенной стаднн обработкн круглой пластнны, включающей в себя крн- 
сталлы, все неконднцнонные крнсталлы оказываются помеченнымн («закапаннымн»), 
н требуется составнть соответствующую карту пластнны, на которой былн бы точно 
помечены закапанные н незакапанные крнсталлы. Задача решается средствамн ма- 
шннного зрення. Спецнфнка задачн связана с тем, что пластнна нмеет зеркальную 
отражающую поверхность, н это вызывает значнтельные проблемы в формнрованнн 
однородного безблнкового подсвета, необходнмого для получення качественного H306- 
раження пластнны C крнсталламн. 

Разработанный грограммно-аппаратный комплекс предназначен для внедрення в 
пронзводстве электронных мнкросхем в качестве экспресс-методнкн подтверждення 
соответствня нзготавлнваемой продукцнн требованням спецнфнкацнн, а повышення 
достоверностн работы маркнровочных автоматов прн разбраковке крнсталлов на пла- 
стнне. 

Состав комплекса: 

e персональный компьютер: 

® цифровая снстема вндеоввода VS-CTT-285-2001; 

e светонзолнрующнй тубус со встроенной снстемой подсветкн. 

Функции системы: 

е ввод уннкальных данных пластнны; 

e ввод C вндеокамеры цнфрового нзображення пластнны; 

® автоматнческое распознаванне «закапанных» крнсталлов на круглой пластнне H 
нх отображенне цветом на экране для внзуального контроля оператора; 
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e автоматнческое формнрованне карты крнсталлов на пластнне с прнсвоением нм 
номеров н характернстнк (целый/нецелый, «закапаниый» /«пезакапанный»), визуалн- 
зацня характернстнк цветом, сохраненне краткого/полного отчетов. 

Прнмер результата работы снстемы прнводнтся па рнс. 7.3.16. Показан результат 
автоматнческого определення граннц крнсталлов, неконднцнонные крнсталлы поме- 
чены точкамн. 


Рис. 7.3.18. Результат автоматического определения границ кристаллов 


7.3.8. Система компенсации геометрических искажений и бесшовной сшив- 
ки изображений, получаемых от многокамерных систем видеоввода. Данный 
npHMep демокстрнрует тнпнчную проблему, возннкающую B снстемах техннческого 
зрення. Как мы знаем, необходнмое разрешенне снстемы вндеоввода определяется 
двумя протнворечнвымн требованнямн: с одной стороны — масштабом съемкн, необ- 
ходимым для того, чтобы контролнруемые деталн былн доступны для нзмерення с 
требуемой точностью, с другой стороны — размером рабочей областн снстемы (га- 
барнтамн объекта нзмереннй), которая должна целнком помещаться в формнруемое 
нзображенне. Прн этом в случае, когда размеры нзмеряемого объекта достаточно ве- 
лнкн, à технологнческне условня предполагают высокую точность нзмереннй, данное 
протнворечне зачастую оказывается практнческн неразрешнмым для существующнх 
техннческнх камер прнемлемого ценового днапазона. Одно нз возможных решеннй 
данной проблемь: слелующес: еслн необходнмого разрешепня н одновременно охвата 
областн ннтереса невозможно достнчь, используя одну вндеокамеру, это можно сде- 
лать, нспользуя одновременно несколько камер (набор нли даже матрнцу камер). Од- 
нако задача сшнвкн «мозанчного» нзображення нз фрагментов, снятых с несколькнх 
камер, является не такой простой задачей в связн с тем, что геометрня н яркость каж- 
дого сннмка немного отлнчаются, H объектнвы камер всегда вносят дополнительные 
нскаження (днсторсию), существенио нзменяющне контуры нзображеннй, особенно 
по краям сннмка. Поэтому для решення задач сшивкн многокамерных нзображеннй 
нспользуются спецнальные математнческне методы. 
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В данном прнложеннн спецнально разработанное программное обеспеченне для сн- 
стемы бесшовной сшнвкн нзображеинй, получаемых от мпогокамерных снстем вндео- 
ввода. Снстема позволяет компенснровать геометрнческне нскаження н высокоточно 
сшнвать в еднное папорамное нзображенне до 16 нзображеннй от разных вндеокамер. 

Функции системы: 

® калнбровка н орнентнрованне вндеокамер снстемы; 

e ввод B ПК нзображеннй от всех вндеокамер снстемы; 

e формнрованне обзорного (уменьшенного) сшнтого нзображення для павнгацнн; 

e нсправленне геометрнн CHHMKOB (внесенне поправок за днсторсню объективов); 

®сшнвка панорамного нзображення; 

е коррекцня «краевых эффектов» сшнвкн нзображеннй; 

® формнрованне, внзуалнзацня н сохраненне детального сшнтого нзображення. 

Характеристики системы: 

эколнчество камер — от 4 до 16 (матрнца камер от 2 x 2 до 4 x 4) 

e захват полутонового цнфрового нзображення с 8- nan 12-разрядной оцифровкой; 

e размер нзображення от одной камеры — 576 x 768 пнкселов; 

® время формнровання обзорного сннмка — не более 3 сек; 

® время формнровання детального сшнтого сннмка — не более 20 сек; 

ө сшнвка нзображеннй осуществляется без внднмых артефактов; 

e экспорт нзображеннй в формате TIFF, ВМР. 


7.3.9. Система автоматизированного контроля качества внутренней поверх- 
ности труб. Данный прнмер демонстрнрует построенне снстемы техннческого зре- 
ння, осуществляющей сканнрованне контролнруемой поверхностн спецнальной двн- 
жущейся камерой. В данной снстеме также нспользуется «лннейный» структурнро- 
ванный подсвет, позволяющнй аналнзнровать лннейные профнлн («срезы») нсследу- 
емой поверхностн с целью восстановления ее трехмерной формы без нспользовання 
стереоннформацнн. 

Состав системы: 

e цнфровая система вндеоввода Tuna VS-CTT-075-2001; 

® нсточинк структурнрованного подсвета; 

€ автономное колесное устройство для сканнрующего перемещення по внутренней 
поверхностн трубы с платформой для креплення вндеокамеры («колесный сканер»): 

® управляющнй ПК. 

Схема сканнровання поверхностн. В процессе сканнровання внут- 
ренней поверхностн трубы колесный сканер с закрепленнымн на нем вндеокамерой H 
нсточннком подсвета последовательно перемещается по поверхностн трубы такнм об- 
разом, что прн ero спнралевндиом двнжеинн (одповременно no окружиостн н вглубь 
трубы) поле зрення камеры «заметает» всю поверхность трубы. Прн этом на каждом 
кадре, соответствующем данному положенню сканера, регнстрнруется однн профнль 
поверхностн трубы, представляющнй собой результат лннейной структурнрованной 
подсветкн этой поверхностн. Путем последующего аналнза формы каждого снятого 
профнля определяются налнчне н размеры дефектов поверхностн, которые данный 
профнль пересекает. В нтоге, за счет геометрнческой сшнвкн данных, полученных 
от отдельных профнлей, формнруется фннальная карта выделенных на поверхностн 
дефектов, 

Настраиваемые параметры системы: 

® пороговый уровень мнннмальных регнстрнруемых дефектов (длнна, шнрнна, глу- 
бнна); 

e велнчнна шага сканнровання по образующей; 

e днаметр н длниа контролнруемого нзделня; 
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€ скорость сканнроваиня. 
Характеристики системы: 

e погрешность оценкн глубнны дефектов — не более 0.1-0,15 мм; 

e погрешность оцеикн площадн дефектов — не болес 15%; 

® погрешность оценкн шнрнны н протяженностн дефектов — не более 20%, 


7.3.10. Система автоматизированного измерения габаритных размеров това- 
ров на складе. Снстема предназначена для нзмерення габарнтных размеров товаров 
на складе C нсиользованнем одной вндеокамеры. 


"I FEE 


+ 


Рис. 7.3.17. Результат измерения габаритных размеров товара 


Состав системы: 

® цнфровая камера высокого разрешення «Вндеоскан-205»; 

®спецнальный фон; 

e элементы крепежа цифровой камеры к столу: 

e управляющий ПК. 

Схема нзмерення. Ha столе устаиавлнвается спецнально разработанный 
фон, представлнющнй собой набор темных 4 светлых квадратов, расположенных B 
шахматном порядке, Данная конструкция фона позволяет сегмеитнровать объект H3- 
мерення вие завнснмостн от цвета с точностью до размера квадрата спецнального 
фона. Съемка нзмеряемого объекта осуществляется цнфровой видеокамерой, pacno- 
ложенной вертикально над столом па расстояинн 1,8-2 м. Оператор размещает объект 
нзмереиня в начале коордннат зоны съемкн в двух нлн трех положеннях для получе- 
ння пеобходнмого чнсла цнфровых нзображеннй для нзмерення габарнтных размеров 
объекта. 

Характеристики системы: 

е колнчество камер — 1; 

® размер нзображения — 1392 x 1040 пнкселов; 

® днапазон габарнтных размеров товаров от 10 мм до 500 мм; 
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® относнтельная погрешность нзмерення не более — 5%; 
e абсолютная погрешность нзмерення товаров прямоугольной 
формы — не более | мм. 


7.3.11. Система контроля укладки пеналов в поддоны Hà автоматизирован- 
ном складе. Снстема предназначена для контроля укладкн пеналов в поддоны на 
автоматнзнрованном складе. 


Рис. 7.3.18. Результат контроля качества укладки пеналов в поддон 


Состав системы: 

® две цветные камеры вндеонаблюдення; 

e снстема подсветки; 

® управлнющий ПК. 

Схема контроля. На месте укладкн сотрудннк склада пронзводнт ручную 
укладку пустых пеналов в поддон. После того как поддон заполнен однотнинымн пе- 
наламн, сотрудннк нажнмает кнопку проверкн правнльностн укладкн с вводом кода 
пеналов, которые в данный момент уложены. По этому снгналу пронсходнт захват 
вндео нзображеннй н нх обработка с целью проверкн качества укладки пеналов. Ре- 
зультат проверкн («удовлетворнтельно» /«неудовлетворнтельно») выводится па экран 
монитора. Надежное выполненне всех функцнй контроля обеспечивается в случае 
точного познцноннровання поддона C пеналамн OTIIOCHTeJIbHO вндеооборудовання. 

Перечень ошибок укладки: 

е пепал вставлен только в одну направляющую; 

e пенал не вставлен B паправляющне; 

® вставлен однн HJIH несколько пеналов неправильного тнпа; 

® отсутствует полнота заполнення поддона пеналамн; 

® пенал вставлен вверх погамн, боком, торцом: 

® пенал нмеет снльное загрязненне па дне; 

e пенал He задвннут в поддон полностью. 

Функции системы: 

e видеозахват н внзуалнзацня нзображеннй с двух камер внлеонаблюдення; 
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® формнрованне базы эталонных нзображеннй правнльно уложенных пеналов B 
поддон для каждого тнпа пенала; 

® контроль качества укладкн пеналов в поддон путем сравнення полученных нзоб- 
раженнй с эталоннымн нзображеннямн; 

e выдача результата обработкн на экран моннтора. 


7.3.12. Автодорожный сканер для мониторинга состояния дорожных объ- 
ектов. Передвнжная лабораторня Автодорожный сканер («АДС-МАДИ»), разрабо- 
танная Московскнм автомобильно-дорожным ннстнтутом по заданню Департамента 
Жнлнщно-коммунального хозяйства н благоустройства города Москвы, обеспечнва- 
ет возможность проведення моннторннга состояння покрытнй улнц н автомобнльных 
дорог, оценкн конструкцнн дорожной одежды н состояння подстнлающнх слоев во 
всесезонном круглосуточном режнме прн двнженнн по дороге со скоростью 30-60 
км в час. Лабораторня включает: снстему замера продольной ровностн покрытня: 
снстему фнксацнн дефектов, элементов горнзонтальной дорожной разметкн H др.: 
снстему фнксацин элементов обустройства дорогн; снстему замера поперечной ровно- 
сти с фнксацией колейиости, высотных отметок дефектов; многоднапазонную снстему 
георадарного зоиднровання; снстему познцнонирования, в том чнсле глобального. 


Рис. 7.3.19. Результат коитроля качества укладки пеналов в поддон 


Лабораторня позволяет осуществлять: 
® фнксацию дефектов дорожиого покрытня прн шнрнне захвата до 12 м, в том 
чнеле выбони, продольных н поперечных трещин с определеинем липейных размеров 
в плане с точностью не менее 10 мм н по глубине с точностью ие менее 5 MM; 
® фиксацию элементов горизонтальной дорожной разметки с оценкой их соответ- 
ствия требованиям ГОСТ Р 51256-99 при ширине захвата до 12 м, в том числе: 
— отклонение OT проектиого положения с точностью до 10 MM; 
— отклонение размеров линий разметки по ширине линии с точностью до 10 мм: 
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— отклонение размеров по длине штрихов и разрывов с точностыо до 10 мм; 

— превышение разметки над проезжей частью с точиостыо до 2 MM; 

— разрушение разметки с шагом, определяемое с дискретностью до 5 %; 

— наличие недемаркированной разметки; 

® замеры продольной ровности покрытия с построением продольного профиля с 

шагом 0,125 м с возможиостью пересчета результатов в показатели ровности покрытия 
в зиачения просветов под трехметровой рейкой, разности вертикальных отметок (по 
СНиП 3.06.03-85), а также определения международного индекса ровностн (IRI); 
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Рис. 7.3.20, Вкдеоизображения дорожного полотна, получениые при помощи линейного скакера. 


Данные сканирования получены с интервалом в полгода. Справа — четко видны ремонтные карты 
(места ремонта) 


e замеры поперечной poBHOCTH покрытня через 0,25 M, с оценкой, B том числе 
колейности (с точность оценки глубипы колеи до 5 мм на ширине до 12 м), оценка 
формы колеи; 

€ замеры высотных отметок крышек смотровых колодцев, дождегриемных решеток 
по отношению к поверхпиостн дорожного покрытия C точпостью до 5 мм; 
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® оценку состояния линейных элементов обустройства (бортового камня, метал- 
лических и бетонных ограждений. шумозащитных экранов) с выделением элементов, 
требующих ремонта; 

® оценку толщин слоев дорожной одежды и состояния подстилающих грунтов 
георадаром: 

— толщину слоев покрытия с точностью до 1 см при глубине 0,25 м; 
— толщину слоев дорожной одежды с точностью до 3 см при глубине | N; 

® фиксацию инженерных сетей с глубиной заложения до 10 м от поверхности 
покрытия, а также различных неоднородностей (промоин, каверн, и T. п.) с точностью 
до 0,5 м; 

® горизонтальную привязку всех вышеуказанных элементов к относительной си- 
стеме координат (привязка к километровым столбам, к перекресткам, зданиям, мач- 
там освещения и др.) с точностью не менее 0,15 % (1,5 м на | км трассы), а также 
к абсолютной системе координат с помощью спутниковой системы с разрешенной 
точностью, 

Состав и размещение оборудования лаборатории «АДС-МАДИ» показаны на 
рис. 7.3.19. 

Особенностью данной системы является использование линейной сканирую- 
щей видеокамеры, формирующей непрерывное изображение сканируемого маршрута 
(рис. 7.3.20). Также используется фотограмметрический сканер с линейной лазерной 
подсветкой (рис. 7,3.21). 


Рис. 7.3.21. Реконструкция формы колеи с помощью трехмерного скапера 


7.3.13. *Литература для самостоятельного изучения. В книге (Шапиро, Сток- 
ман) [49] вопросы короткобазисной фотограмметрии рассматриваются в основном B 
главе 13. В том числе рассматривается и характерный для короткобазисной фотограм- 
метрии раздел 13.5 «использование структурированной подсветки». 

В книге (Форсайт, Понс) [44] задаче реконструкции трехмерной простраиствен- 
ной информации по набору двумерных изображений посвящена часть lIl, особенно 
главы |0 «Геометрия нескольких проекций» и i| «Стереозрение». Вопросы коротко- 
базисной фотограмметрии при этом методически не отличаются от вопросов дальней 
фотограмметрии. 


7.4. Зрение роботов 


Под «роботом» в наиболее широком смысле в настоящее время понимают любое авто- 
номное мобильное техннческое устройство, способное самостоятельно перемещаться, 
ориентироваться в пространстве и выполнять определенные действия B автоматиче- 
ском или автоматизированном режиме. Мобильные роботы могут двигаться по говерх- 
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ности земли, в водной или воздушной среде, представлять собой роботизированные 
транспортные средства или человекоподобные устройства, в любом случае возникает 
задача получения и анализа визуальной ннформации об окружающем мире, на основе 
которой затем формируется автоматическое управление исполнительными органами 
робота. Решением этой задачи занимается дисциплина под названием «зрение ро- 
ботов». Она является одной из известных областей приложения методов и средств 
машинного зрения. 

В данном разделе мы кратко рассмотрим две крупные технологии технического 
зрения, связанные с роботами: интеллектуальное системы автомобильного базирова- 
ния и зрение мобильных роботов. 


7.41. Область применения: автомобильные системы. Технология автоматиче- 
ского визуального анализа дорожной ситуации для интеллектуальных систем управ- 
ления автоматизированными наземными транспортными средствами должна включать 
следующие характерные элементы: 

€ комплексное использование датчиков различного типа (ТВ, HK, мм-радар, лазер- 
ный дальномер и др.), а также стереоинформации; 

® автоматическую реконструкцию поверхности дороги и других значимых элемен- 
тов трехмерной сцены наблюдения в реальном времени; 

®автоматическое самоориентирование и самопозиционирование транспортного 
средства относительно дороги; 

® автоматическое выделение препятствий в зоне движения транспортного средства; 

® автоматическое слежение за поведением других участников движения; 

®оценку сценариев развития событий, выдачу сигналов «тревоги» (для автомати- 
зированных систем) либо формирование критериев управления (для автоматических 
систем); 

® формирование «тревожных» сообщений водителю в случае реализации неблаго- 
приятных или нестандартных сценариев развития событий в зоне видеонаблюдения; 

® программно-аппаратные средства для реализации методов и алгоритмов сбора и 
обработки видеоинформации. 

Целевые области применения такой технологии: 

® создание автоматизированных транспортных средств повышенной безопасности; 

® создание автономных транспортных средств боевого и двойного назначения; 

® создание автономных транспортных средств для работы в агрессивных средах и 
другой обстановке, угрожающей жизни человека, 

Ведущие компании мира и военные ведомства технологически развитых стран 
ведут активные работы в данном направлении, предполагающем как гражданские, 
так и воснные области применения. Рассмотрим несколько примеров характерных 
разработок такого типа, 

Компания General Motors разрабатывает систему автоматического управления 
транспортными средствами для легкового автомобиля Opel Vectra. Автопилот мож- 
но будет использовать в условиях плотного движения на скоростях до 100 км/ч. 
При этом система, получившая название Traffic Assist, сможет функционировать B 
полпостью автоматическом режиме, не требуя выполнения каких-либо действий со 
стороны водителя. Комплекс Traffic Assist состоит из лазерных датчиков и видеока- 
мер, информация с которых поступает на анализ в бортовой компьютер. Автопилот 
сможет распознавать дорожную разметку, препятствия и определять положение дру- 
гих участников дорожного движения. В зависимости от текущей ситуации компьютер 
будет отдавать команды двигателю, приводу рулевого колеса или тормозной системе. 

Компании Volvo и Ford объявили о планах оснащения своих автомобилей но- 
вой интеллектуальной системой, эффективно предотвращающей аварийные ситуации, 


548 ТЕХНОЛОГИИ И ПРИЛОЖЕНИЯ MALIIHHLIOTO ЗРЕНИЯ Г. 7 


причина которых — усталость, ослабление внимания, сон водителя. Используется 
«активная» система, которая предусматривает переход автомобиля на автоматнческое 
управление при отклонении от запрограммированных параметров. Компания Infiniti 
также планирует начать установку специальных «антисонных» снстем в свои автомо- 
били. Система состоит из видеокамеры, сенсора скорости и сигнального устройства. 
Ее основная задача — предупреждать нечаянное смещение автомобиля с полосы дви- 
жения. 

Компания Toyota сообщила о завершении работ над новым экспериментальным 
автомобилем ASV-2 («Advanced Safety Vehicle»), который оснащен девятью различ- 
ными системами безопасности, позволяющими избежать аварийных ситуаций. Одна 
из систем следит за расстоянием до различных объектов перед автомобилем. И если 
она обнаруживает препятствие в опасной близости от автомобиля, раздается звуковой 
и световой сигнал. Еслн же водитель не реагирует на подаваемые сигналы, система 
начинает тормозить автоматически. Кроме того, автомобиль оборудован системой, сле- 
дящей за объектами справа от водителя, на «слепой стороне». Система подает сигнал, 
если автомобиль приближается слишком близко к объекту правой стороной. Также 
отслеживается состояние дорожного покрытня: влажность, покрытие, обледенение. 

Алюминиевый робот с тремя ногами и тремя руками был испытан в Германии в 
качестве водителя автомобиля. Робот Klaus был создан компанней Volkswagen АС, 
местным технологическнм колледжем и группой Robert Bosch. Klaus оснащен тремя 
лазернымн сканерами, стереокамерой, системой видео- и спутниковой навигации, а 
также радаром, соеднненным с компыотером. 

В США под эгидой ряда военных программ проводятся автомобильные гонки 
по бездорожью между беспилотными автоматическимн автомобилями под названием 
«Большой вызов». Участники гонки автономно преодолевают 340 километров пусты- 
ни. Задачи по самостоятельной прокладке маршрута полностью ложатся на управ- 
ляющие компьютерные системы. Типичным участником гонки является авторобот, 
созданный в университете Карнеги Меллона (США). Авторобот «Песчаная буря» 
(Sandstorm) сделан на основе внедорожника Hummer. Одной нз наиболее сложных 
проблем для автороботов является преодоление препятствий. Система GPS держит 
автомобиль на правильном курсе с точностью до одного метра, но она не способна 
предупредить его о ямах или камнях. Поэтому помимо GPS робот оснащен специ- 
альными сенсорами, позволяющими определять препятствия. Лазерные радары «про- 
щупывают» местность перед машиной и передают данные в центральный бортовой 
компьютер на базе четырех процессоров Intel Itanium 2. Помимо этого, с двух видео- 
камер поступает стереоизображение. Система использует специально написанное ПО. 
Кроме компьютера на базе [tanium, на автомобиле установлены еще четыре системы, 
каждая с двумя процессорами Intel Xeon, на которых работают такие приложения, как 
доступ к картам и другой информации, контроль состояния автомобиля и управление 
HM. 


7.4.2. Область применения: мобильные роботы. Технология создания систем 
машинного зрения для автономных робототехнических систем должна включать сле- 
дующие характерные элементы: 

® использование стерео- и многокамерных систем зрения; 

® использование трехмерных моделей объектов н окружающей обстановки; 

® автоматическую реконструкцию элементов трехмерной сцены наблюдения в ре- 
альном времени; 

®автоматическое самоориентирование и самопозиционирование транспортного 
средства относительно известной нли неизвестной сцены наблюдения; 

е автоматическое выделение препятствий в зоне движения робота; 
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® автоматическое распознавание целевых объектов сцены, формирование управле- 
ния роботом, нацеленного на приближение к целевым объектам, их захват, использо: 
вание илн перемещение; 

ө считывание автоматических идентификаторов (цифробуквенных, либо штрихо- 
вых), нанесенных на целевые объекты, выполнение сценариев работы, связанных с 
целевыми объектами указанного типа; 

e автоматическое слежение за поведением других движущихся объектов сцены; 

® автоматическое опознавание людей, распознавание и выполнение команд, пода: 
ваемых жестами; 

® оценку сценариев развития событий, формирование соответствующего интеллек- 
туального управления: 

e программио-аппаратные средства для реализации методов и алгоритмов сбора и 
обработкн видеоинформации. 

Целевые области применения данной технологии: 

® создание интеллектуальных робототехнических систем для работы па современ- 
ных производственных технологических линиях; 

® создание автономных мобнльных роботов для осуществления погрузочно-разгру- 
зочных и других складских работ; 

ө создание автономных мобильных роботов для работы в сфере обеспечения 
безопасности, сфере обслуживания, и различных производственных сферах в обще- 
нии и кооперации с человеком; 

ө создание автономных мобильных роботов для работы в агрессивных средах и 
другой обстановке, угрожающей жизни человека. 

Эксперты по робототехнике предсказывают резкий рост рынка мобильных робо- 
тов в течение ближайших 3-5 лет. Фундаментом грядущего расцвета рынка роботов 
станут прорывные достижения в области машинного зрения и в технологиях автома- 
тического управления манипуляторами, а также снижение цен на интеллектуальные 
аппараты. Пока основными покупателями подобных устройств считаются промышлен- 
ные и военные компании, но уже в конце текущего десятилетия основной доход будет 
поступать от массового покупателя. 

Рассмотрим несколько примеров современных разработок в области мобильной 
робототехники. 

В университете Карнеги-Меллон (США) завершена работа над стереоскопической 
системой зрения роботов, которая позволит машинам ориентироваться в любых по- 
мещениях. Система состоит из двух цифровых камер и встроенной в компьютерный 
мозг робота 30-матрицы. Расстояние до объектов определяется геометрически по раз- 
нице смещения их изображений, полученных каждой из камер. Разработки в области 
стереоскопического зрения роботов также активно ведут компании Tyzx, Point Grey 
Research и Videre Design. Другой современный метод компьютерного зрения исполь- 
зует лазерные искатели, нзмеряющие расстояние до объектов по времени возврата 
отраженного света, 

Фирма Evolution Robotics предложила технологию, которая позволяет роботу ори- 
ентироваться в окружающей среде при помощи колесных датчиков и веб-камеры. Это 
оборудование стоит менее $50, а не $5000, как другие существующие системы нави- 
гации роботов, основанные на лазерных дальномерах. Система, называемая «систе- 
мой одновременной визуальной локализации и позиционирования (visual simultaneous 
localization and mapping, VSLAM), составляет карту окрестностей по расстоянию и 
направлению движения колес робота. а также по объектам, распознаваемым посред- 
ством камеры и программного обеспечения. Впоследствии робот ориентируется по 
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этим данным. При первом путешествии по помещению система «обучается», а затем 
корректирует карту в соответствии с изменениями в расстановке предметов. 

Значительны современные достижения в области практического внедрения NO- 
бильных роботов. Робот HelpMate с конструкцией В2-02, поставляемый производи- 
телем медицинского оборудования Pyxis, разносит пробы крови, лекарства и еду no 
коридорам более чем сотни клиник. Matsushita Electric Works работает над собствен- 
ным медицинским роботом-курьером и планирует начать его поставки. Продаются 
роботы-пылесосы. Honda и Sony создали роботов-гумапоидов. У ходячего робота Sony 
SDR-4X ростом 58,5 см 38 суставов, B его голову встроены стереокамеры. Во время 
движения он избегает препятствий и может различать голоса и песни. 

Японский производитель Kawada представил разработанного им робота-гуманоида, 
который предназначен для работы на производстве. Робот HRP-2P (что означает 
Humanoid Robotics Project-2 Prototype) работает под управлением АВТ-Мпих. HRP- 
2Р повторяет фигуру человека, и его конечности имеют Te же степени свободы, что и 
человеческие руки и ноги. Производством роботов занимаются такие компании, как 
iRobot и ActivMedia Robotics. 

Общепризнанными мировыми лидерами B области разработки и производства KOM- 
мерческих мобильных роботов являются Япония и США. 

Применительно к использованию робототехники в военных целях и в чрезвычей- 
ных ситуациях приоритетное значение имеют пригодность к эксплуатации в жестких 
и экстремальных условиях и способность обеспечить защиту обслуживающего пер- 
сонала. Для выполнения вышеуказанных задач спецподразделения имеют следующие 
основные группы мобильных роботов: 

® мобильный робототехнический комплекс — универсальные наземные роботы, 
предназначенные для действий на объектах транспорта, промышленности, городской 
инфраструктуры и т. д., на открытой слабопересеченной местности; 

® специальные робототехнические комплексы — роботы, способные перемещаться 
по вертикальным и наклонным поверхностям промышленных объектов и транспорт- 
ных средств, а также в трубопроводах и узких местах; 

® малогабаритный дистанционно пилотируемый летательный аппарат (МДПЛА) — 
воздушный робот для проведения разведки на открытой местности, сильно пересечен- 
ной местности, в горах, в городе. 

Большинство используемых в этой области мобильных роботов на сегодняшний 
день не являются полностью автономными интеллектуальными системами, однако 
процент таких устройств по сравнению с телеуправляемыми системами гостоянно 
растет. 


7.4.3. *Метод дифференциального ортофото. Задачу обнаружения препят- 
ствий можно отнести к одной из частных, но, безусловно, ключевых задач автоном- 
ного управления наземными мобильными объектами. С ее решением тесно связаны 
перспективы автоматизации целого ряда важных функций таких, как самопозициони- 
рование, анализ достижимости целей управления, оперативное планирование марш- 
рутов перемещения, построение карты исследованного пространства. Стремительное 
развитие средств получения цифровых изображений и прогресс вычислительной тех- 
ники открыли новые возможности для решенкя задачи обнаружения препятствий на 
базе интеллектуальных систем технического зрения. 

На сегодняшний день ощутимые успехи достигнуты в создании систем обнаруже- 
ния препятствий при движении мобильного объекта в пределах стационарного про- 
странства известной геометрии (офиса, здания) (Valls, 2006; Wang, 2004). Посколь- 
ку скорости движения в таких задачах невелики, то для безопасного перемешения 
обычио достаточио обнаруживать препятствия лишь в непосредственной близости от 
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мобильного объекта, В качестве препятствий в основном рассматриваются объекты, 
отвечающие предопределенным моделям, которые могут представлять собой как со- 
вокупность простых признаков, так и сложные структурные описания. 

Другим востребованным классом систем являются системы обнаружения препят- 
ствий при движении мобильного объекта по скоростным протяженным маршрутам 
в условиях априори неизвестной, динамично меняющейся окружающей обстановки, 
например, при движении транспортного средства (ТС) по автомагистралям. Данная 
задача является неоспоримо более сложной, и ее текущее состояние можно охаракте- 
ризовать как совокупность перспективных подходов, на базе которых созданы первые, 
тестовые прототипы систем обнаружения (Sun, 2006). Специфика задачи заключает- 
ся в высокой изменчивости фоно-целевой обстановки, практически не поддающейся 
формальному математическому описанию. При этом задача усложняется еще и тем. 
что из-за высоких скоростей движения время реакции системы управления на H3- 
менение в окружающей обстановке должно быть минимальным, поэтому необходимо 
обрабатывать информацию в реальном масштабе времени. 

Одним из перспективных подходов к решению задачи обнаружения препятствий 
средствами машинного зрения является подход на базе стереозрения. Важное пре- 
имущество стереоскопических систем заключается в возможности за счет различия 
в положении камер отличать трехмерные (30) объекты, отстоящие от поверхности, 
от объектов, принадлежащих этой поверхности (блики, тени, специальный рисунок), 
что потенциально снижает вероятность ложных обнаружений. На сегодня основным 
фактором, ограничивающим применение методов стереозрения для обнаружения пре- 
пятствий, является вычислительная сложность методов анализа стереоинформации. 
Как следствие, актуальной остается проблема раз- 
работки новых методов и алгоритмов обнаружения 
30-объектов, отличающихся, с одной стороны, KOP- 
ректностью с точки зрения стереофотограмметрии, 
с другой — использованием «быстрых» процедур 
обработки, ориентированных на архитектуру совре- 
менных вычислительных платформ. Решению этой 
проблемы и посвящена настоящая работа. 

Одним из робастных методов обнаружения 3D- 
объектов на относительно гладкой поверхности | Невидимая область 
является метод «дифференциального ортофото» 
(Zheltov и др., 2002). Основная идея метода заклю: 
чается в следующем. Если известна аналитическая 
модель подстилающей поверхности, то с учетом 
этой модели строятся ортогональные проекции ле- 
вого и правого изображений стереопары на вспомо- 
гательную (иапример, горизонтальную) плоскость. 
Будем называть такие проекции «ортофото». В отсутствие трехмерного объекта, при 
условни, что модель идеально описывает наблюдаемую поверхность, ортофото левого 
и правого изображений совпадают. Наличие 30-объекта приводит к возникновению 
отклонений от модели поверхиости, в результате чего на ортофото объект оказывается 
«спроектированиым» на загораживаемую им область (рис. 7.4.1). 

За счет различия в положении камер стереосистемы на разиости левого и право- 
ro ортофото (дифференциальном ортофото) в области границ ЗО-объекта возникают 
характерные яркостно-геометрические структуры угловой формы (рис. 7.4.2). Таким 
образом, задача обнаружения 30-объектов может быть сведена к более простой 3a- 
даче поиска на дифференциальном ортофото двумерной структуры угловой формы. 


Рис. 7.4.1. На ортофото объект enpo- 
ектируется» Ha загораживаемую им 
область 


552 ТЕХНОЛОГИИ И ПРИЛОЖЕНИЯ МАШИПНОГО ЗРЕНИЯ nt 


Однако решение и этой задачи сопряжено C ощутимыми вычислительными затрата- 
ми и труднореализуемо в системах реального времени. Вычислительно эффективная 
реализация данного метода основана на использовании полярных координат. 


Рис. 7.4.2. Пример ортофото и их разности: а, 6 — левое и правое изображения; в. г — левое и 
правое ортофото: д — разность в минус г (дифферсициальное ортофото) 


Пусть на подстилающей поверхности выбрана внешняя система координат 
ОХ.Ү.2. такая, что ось ОХ. направлена вперед по ходу движения мобильного объ- 
екта, ось OY, перпендикулярна оси ОХ. и направлена вправо, ось OZ, направлена 
вверх по нормали к поверхности, плоскость ОХ.У, совпадает с плоскостью подсти- 
лающей поверхности. Пусть также имеется пространственная модель подстилающей 
поверхности 2(Х,У). 

Введем полярную систему координат (х, R} 


(Хх -Х.)? + (У - Ү,)?, «= arctg 1", 

х-х, 

где К — расстояние от фокальной плоскости камеры до ЗО-точки (Х, У,2); Xa Y, — 

координаты оптического центра камеры; х — угол между проекциями на горизон- 

тальную плоскость оптической оси камеры и линии, соединяющей оптический цеитр 
с точкой (Х,У, 2). 

Построим ортофотоизображение в полярной системе координат (х, R}. B дальней- 
шем будем называть такое изображение «радиальным ортофто». Пиксельные KOOD- 
динаты ($,7) точки радиального ортофото в системе координат (х, NRY соответствуют 
точке (œ;, Ri}, вычисляемой как 


и = i Sa, А; =}, 


где Sa, Sr — масштабирующие коэффициенты вдоль осей х H А. 
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Для получения значения яркости пиксела (i,j) определяются координаты точки 
(e, Ri) в системе координат O X, Y, 2+: 


Xi = R; сов(оџ) tX, Y; = Г, sin(o) + Y4Zi = Z(XGYi, 


и полученная точка (Х;,У;, 2;) проектируется Ha исходное изображение c помощью 
уравнений коллинеарности. 

Важное преимущество радиального ортофото заключается в следующем. В отли- 
чие от ортофото, построенного в прямоугольной системе координат, на радиальном 
ортофото границы объекта не искажаются, т.е. невидимая область, загораживаемая 
объектом, имеет прямоугольную форму с вертикальными краями. Поскольку грани- 
цы объекта есть области существенного перепада яркости, то в качестве характер- 
ного признака 30-объекта на радиальном ортофото можно рассматривать яркостно- 
геометрическую структуру максимально простой формы — совокупность вертикаль- 
ных границ контрастности (контуров). Поиск такой структуры может быть организо- 
ван на базе вычнслительно эффективных операций построения и анализа интеграль- 
ных проекций яркости в вертикальном и горизоптальном направлении специального 
«признакового» изображения. Т.е. уже на начальном этапе обработки выполняется 
переход от дорогостоящих в вычислительном плане операций анализа изображений к 
более быстрым операциям анализа одномерных массивов (проекций яркости). 


7.4.4. Система обнаружения препятствий на дороге перед движущимся 
транспортным средством. Применительно к задаче автоматического управления 
движением транспортного средства в ГосНИИАС разработана система обнаружения 
препятствий на скоростных автомобильных дорогах. Система основана на анализе 
цифровых стереоизображений, получаемых при помоши двух ССО-видеокамер. Рекон- 
струкция трехмерной формы поверхности дороги, самопозиционирование автомобиля 
и обнаружение препятствий осуществляются внутри собственной полосы движения 
автомобиля в масштабе реального времени. Система обеспечивает устойчивое обна- 
ружение различных типов препятствий на расстоянии до 100 м. Разработан также 
вариант системы, использующий комплексирование визуальной стереоинформации и 
данных автомобильного радара. 

На рис. 7.4.3 показаны результаты выделения собственной полосы движения и пре- 
пятствий. наблюдаемых на дороге в различных условиях освещенности и различных 
дорожных ситуациях. 


A 


Рис. 7.4.3. Примеры работы системы обнаружения препятствнй па дорогах 


Система обнаружения препятствий (СОП) обнаруживает движущиеся и неподвиж- 
ные непрозрачные препятствия различной формы с прямолинейными или закруглен- 
ными краями, высотой над уровнем дороги не менее 10 см, шириной от 20 см до 1,5 м, 
находящихся в диапазоне дальностей от 5 до 100 M, в собственной полосе движения 
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транспортного средства (ТС). Препятствия различаются от контрастных объектов. 
лежащих в плоскости дороги (линии разметки, тени, блики). Система обнаружения 
является всесуточной и всепогодной. Обработка информации осуществляется в реаль- 
ном масштабе времени. Система обнаружения выдает сигнал о наличии препятствия. 
а также его характеристики; дальность и положение в полосе движения ТС, ширину 
и высоту над уровнем дороги, относительную скорость сближения с ТС. 

В состав аппаратного обеспечения СОП входит стереовидеосистема на базе двух 
ССО-видеокамер, устанавливаемых в области ветрового стекла TC на высоте 106,5 см 
с базой 113,6 см, бортовой компьютер с платами оцифровки ТВ-изображений и спец- 
вычислителем, поддерживающим набор функций обработки изображений на аппарат- 
ном уровне. 

Реализованный подход к обнаружению препятствий на дороге базируется на сле- 
дующих основных принципах: 

1. Калибровка и ориентирование стереовидеосистемы осуществляется средствами 
цифровой фотограмметрии по оригинальной методике (Knyaz и др., 1999). 

2. Алгоритм обнаружения препятствий использует трехмерную модель поверхно- 
сти дороги. 

3. Восстановление трехмерной модели поверхности дороги производится с использо- 
ванием продольных линий разметки, ограничивающих полосу движения автомобиля. 

Обнаружение линий разметки. Алгоритм выделения линий дорожной разметки 
разработан в рамках подхода, основанного на анализе свидетельств (см. выше раздел 
5.5). Процедура выделения разметки состоит из следующих основных этапов. 

1. Первичное выделение сегментов разметки — процедура основана на стати- 
стическом анализе профилей яркости B построчных горизонтальных сечепиях изоб- 
ражения. Сегмент любой линии разметки на профиле соответствует сушественному 
положительному яркостному контрасту относительно фона и возникновению резко- 
го ступенчатого края. Сегменты с данными свойствами находятся методом сигма- 
фильтрации. 

2. Монокулярное обнаружение продольных линий разметки. Обнаружение линий 
разметки основано на модификацин алгоритма преобразования Хафа. Суть предлага- 
емой процедуры заключается в голосованни пар сегментов разных строк, входящих в 
зону поиска, в пользу набора гипотез о положении н направлении линии разметки, 
представленных в виде массива-аккумулятора. Параметризация аккумулятора соот- 
ветствует натуральной параметризации прямых линий, при которой линия определя- 
ется парой лежащих на ней точек. Однако, вместо параметризации (Ttop, Thorizoni), TAC 
юр — точка пересечения прямой с верхней границей зоны; хьонзот — точка nepe- 
сечения прямой с линией предполагаемого горизонта, используется параметризация 
(юр, Яъонот), TAE Zip — точка пересечения прямой с верхней границей зоны; топот — 
точка пересечения прямой с нижней границей (основанием) зоны. Такая параметри- 
зация позволяет учитывать проектнвную геометрию. Пучку параллельных прямых в 
3D-npocrpaHcTBe, лежащих в одной плоскости и на изображении сходящихся в OA- 
ной точке, в пространстве (тлор, Tbottom) соответствует множество точек, лежащих на 
одной прямой (см. рис. 7.4.4). Поэтому при голосовании любая пара отрезков голо- 
сует в пользу множества прямых такнх, что прямые пересекают эти отрезки, причем 
их образы в пространстве (тор, Хъошот) OTCTORT от прямой, соответствующей текущей 
гипотезе о нулевой плоскости, не более чем на заданное число пикселов. 

3. Стереоотождествление линий разметки. Для всех возможных пар линий, от- 
носящихся к разным изображениям, проверяются следующие условия: тангенсы углов 
наклона стереолинии относительно плоскостей Ze — Y, и X, — Ye и высота сдвига ec 
стартовой точки от нулевой плоскости по оси Z, не должны превышать пороговых 
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значений. Пары линий, удовлетворяющие этим условиям, заносятся B сиисок CTepeo- 
линий. Линии разметки определяются на основе анализа взанмного расположения 
стереолиний из сформированного списка. 


E nah 7 


Рис. 7.4.4. Процедура мопокуляриого обиаружения линий разметки. Слева — исходное нзображсиие, 
Показана прямоугольная зона поиска и линии разметки, соответствующие локальным NaKCHMyMaN в 
аккумуляторе. Справа — аккумулятор моднфицироваиного преобразования Хафа. Показана прямая, 
соответствующая яредсказанию точки схода. Отмечены границы области точек, отстоящих от этой 
прямой не болес чем на нороговое число пякселов 


Обнаружение препятствий. В основе алгоритма обнаружения препятствий лежит 
метод радиального ортофото. На первом этапе выполняется пространственная рекон- 
струкция подстилающей поверхности (дороги). В предположении об относительной 
гладкости дороги для ее описания была выбрана апалитнческая модель: 


Z(X,Y) = ao + a4X + а2У + азУ?, 


где X.Y,Z — координаты точки поверхности в системе координат ОХ. Y, Ze. 

Параметры а;, #=0,...,3 модели 2(Х,У) определяются методом наименьших 
квадратов по набору трехмерных точек дорожной разметки, которые принадлежат 
поверхности и заведомо пе принадлежат обнаруживаемому объекту. 

Для построения радиального ортофото в масштабе реального времени авторами 
предложен вычислнтельно эффективный алгоритм, основанный на аппаратно поддер- 
живаемой процедуре кусочно-билинейной трансформации изображений. Суть алгорит- 
ма состоит в следующем. Область дороги разбивается на участки с фиксированным 
шагом по дальности. Каждый участок нмеет 4 угловые точки, задаваемые положенн- 
ем дорожной разметки на текущей дальности. Для каждой точки указанного набора 
определяется соответствующая сй точка на трансформированиом изображенни. 

Преобразование набора из четырех точек исходного изображения в набор из че- 
тырех точек трансформированного нзображення, запнсанное в виде 


т =2(и,0). y-y(wv) 


где (т,у) — коорднната точки на исходном изображении, (и, о) — коорднната точки 
на трансформированном изображении, может быть реализовано в рамках билинейной 
формы вида 

x = Ви + Cuv + Ev + F, 

y = Ни + Кии + Мо + М. 


где B, C, Е, Е, Н, К, M, N — коэффнциенты преобразования. 
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Алгоритм стереоотождествления вертикальных контуров использует условие pac- 
положения препятствня в собственной полосе двнжения ТС, которое позволяет суще- 
ственио уменьшить область поиска пути, задающего стереосоответстзие. 


7.4.5. Система автоматической привязки телефрагментов к ортофотоизобра- 
жению. Данная система может быть рассмотрена как ирнмер задачи, решаемой в 
рамках информационного обеспечения автономного летательного аппарата. 

Система осуществляет привязку фрагментов цифровых телевизионных изображс- 
пий местности к системе геодезических координат путем автоматической идентифи- 
кации их с соответствующими фрагментами ортоплана местности. Ориентирование 
и масштаб исходных фрагментов могут быть совершенио пронзвольными. Ортоплан 
местности создастся предварительно путем трансформирования и сшивки блока аэро- 
фотоснимков. Для ндентификации фрагментов разработан упикальный алгоритм сте- 
реоотождествления, который позволяет сравнивать изображения разной геометрни. 


Рис. 7.4.5. Прнмер автоматической привязки фрагментов. Исходиое нзображение (слева). сграва 
вверху — исходный фрагмент-эталон, справа впизу — идентифицированный фрагмент ортоплана 
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7.5. Видеонаблюдение и системы безопасности 


7.5.1. Область применения: видеоиаблюдение. Автоматические и автоматизиро- 
ванные системы видеонаблюдения являются одной из ключевых составляющих совре- 
менных комплексных систем безопасности. Задача вндеонаблюдения подразумевает 
визуальный контроль заданной области пространства при помощи одной или несколь- 
ких видеокамер, позволяющий сохранять н просматривать цифровые видеоданные, 
а также постоянно оценивать состояние контролируемой территории, выделяя так 
называемые «охранные события», заключающиеся в тех или нных измененнях наблю- 


даемой обстановки, 
Распределенные системы видеонаблюдения. Исторически основными функци- 


ями снстемы вндеонаблюдения являются вывод ннформации на пункт контроля н 
запись в архнв. Большинство производителей платформ ССТУ (охранного телевиде- 
ния) ориентированы именно на такую модель работы. Основной тенденцией в разви- 
тии систем видеонаблюдения на сегодняшнем этапе является переход от аналогового 
способа получения (аналоговые камеры), отображения (телевизоры) и хранения вндео 
(видеокассеты) к цнфровому (ІР-камеры, компьютерные мониторы и цифровые базы 
данных). Поэтому такую существенную роль в построении систем видеонаблюдения 
играют сегодня технологии сжатня, хранення, поиска и передачи цифрового видео. 

Современные распределенные системы видеонаблюдения основаны на клиент-сер- 
верной архитектуре. При одном из подходов к построению таких систем вся обработка 
данных проводится на серверной стороне. Другой подход подразумевает вынесение 
части обработки на сторону клиента (в данном случае клиент связан с каждой ка- 
мерой). В качестве примера можно привести задачу оцифровки вндео в системах с 
аналоговыми видеокамерами. Можно осуществлять перевод в цифровой сигнал на 
стороне сервера и, соответственно, все камеры будут соединены с центральным по- 
стом коаксиальными кабелями, либо поставить видеосервер (encoder), который будет 
выполнять данную процедуру для нескольких камер и отправлять на сервер инфор- 
мацию в цифровом виде по IP. Заметим, что эта задача до сих пор актуальна. Еслн 
даже не рассматривать огромное количество уже реализованных на базе аналоговых 
камер систем видеонаблюдения, то и в 2010 году на мировом рынке видеокамер (ко- 
торый по некоторым оценкам составляет в целом примерно 8 миллиардов долларов 
США) ІР-камеры занимают лншь порядка 20%. В то же время, всем участникам рын- 
ка ясно, что в перспективе переход на ІР камеры, очевндно, неизбежен и является 
вопросом самого ближайшего времени. Ключевыми факторами здесь станут возрос- 
шая конкуренция среди производителей, а также импорт дешевого оборудования из 
Кореи, Тайваня и Китая. 

Различие в подходе к построению клиент-серверных систем обработки видео про- 
является и в том случае, когда речь идет о модулях видеоаналитики, автоматизиру- 
ющих функции оператора системы видеонаблюдения. Принципиально возможны оба 
принципа размещения таких модулей. Причем, судя по последним опросам профес- 
сиональных журналов, оба способа имеют своих прнверженцев. И все же, по мере 
развития соответствующих технологий машинного зрения подход с размещением об- 
работки видео на стороне клнента начинает превалировать. 

Открытые стандарты. Развнтие рынка видеонаблюдения и появление большо- 
го числа производителей определило спрос на открытые стандарты, обеспечивающие 
возможность совместного использования оборудования и программного обеспечения 
различных пронзводителей. Это привело к формированию двух отраслевых объедн- 
нений: Форум открытого сетевого видеоинтерфейса (Open Network Video Interface 
Forum, ONVIF) и Альянс за совместимость систем физической безопасности (Physical 
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Security Interoperability Alliance, PSIA). Обе организацин — PSIA и ONVIF — бы- 
ли основаны B 2008 г. с разницей B несколько месяцев C целью создання стандар- 
тнзнрованных интерфейсов для устройств физической безопасности и программных 
платформ и стремятся к созданию совместимых систем безопасностн на базе IP- 
технологий. 

ONVIF в большей степени уделяет внимание камерам, видеоаналитике и интер- 
фейсу между сетевым передающим видеоустройством и сетевым принимающим кли- 
ентом. PSIA определяет более общне спецификацин для широкого рынка физической 
безопасностн, который включает в себя различные системы датчиков, контроль до: 
ступа, снстемы хранения данных и многое другое. 

Имеется ряд различий между спецификациями ONVIF и PSIA, 

® Спецнфнкация ОМУІЕ построена на современных веб-сервисах, описываемых 
языком WSDL (XML используется в качестве языка опнсания данных, SOAP приме- 
няется для передачи сообщений, а с помощью WSDL описываются непосредственно 
сервисы). Спецификацин PSIA основана на REST (representational state transfer), ap- 
хитектуре передачи состояння представления. Для архитектуры REST нужно меньше 
ресурсов и она обладает возможностью чтения сообщеннй протокола, которые лег- 
ко интегрнруются в систему отладки. Из-за высоких требований к вычислнтельным 
ресурсам н каналу передачи данных выбор ONVIF выглядит мене привлекательным 
для использовання, так как требует наличия полностью совместимых НТТР-сервера, 
SSL и XML-napcepa. 

e ONVIF гарантирует 100%-ную совместимость между устройствамн при сетевом 
обнаруженин друг друга, так как все ОМУТ -совместимые устройства должны NOA- 
держнвать WS Discovery. PSIA предлагает больше вариантов поиска устройств B сетн: 
Zeroconi, UPnP н Bonjour, но это также прнводнт к сложностям в совместной рабо- 
те устройств, поддерживающих PSIA. Например, PSIA-coBMecTHMyio камеру с non- 
держкой Bonjour невозможно подключить к управляющей вндеосистеме, отвечающей 
стандартам PSIA, но поддерживающей ОРпР-метод. 

e B ONVIF система уведомления о событнях основана на WS-Notify. Это позволяет 
однозначно регламентировать процесс передачи информации о событни от камеры на 
следующий уровень. PSIA использует обобщенный формат сообщений для событий и 
уведомлений, что не гарантирует 100%-ной совместнмостн устройств PSIA. 

e РІА уже обладает требованнямн к способу хранения. ONVIF не обладает на 
текущий момент подобной специфнкацией. 

e PSIA располагает техннческими требованиямн к интеграции снстем управлення 
ннформацией физической безопасности (PSIM). 

Согласно независимым оценкам, на текущий момент члены ONVIF контролируют 
порядка 40-60% мирового рынка видеонаблюдения по сравненню с 20-25%, прихо- 
дящимися на участников PSIA. 

Интеллектуальное видеонаблюдение и функции видеоаналитики. Одним из 
основных недостатков традиционных систем вндеонаблюдения является серьезное 
сннженне возможностей оператнвного реагирования при увелнчении масштабов си- 
стемы. В случае, когда речь идет о десятках и более входящих потоков видео, опе- 
ратор уже не в состоянии адекватно отслеживать текущую обстановку в реальном 
временн. Согласно проведенным исследованням, при большом числе контролируемых 
видеоканалов уже через 12 мннут работы оператор пропускает до 45% активности на 
экране, а после 22 минут до 95%. 

Данная проблема особенно актуальна в случае большнх систем видеонаблюдення. 
Это хорошо заметно на примере снстем уровня города. Так, планомерное внедренне 
системы тотального вндеонаблюдения в Лондоне (более десяти тысяч камер в единой 
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сети и более полумиллиона в целом по городу), не привело к серьезному сннжению 
количества инцидентов илн увеличению процента раскрытия преступлений, 

Как выяснилось, недостаточно просто транслировать на центральный пункт ви- 
деонаблюдення изображення от огромного числа камер. Эти изображения нужно тут 
же анализировать, формировать необходимые сигналы тревоги и прнвлекать к крити- 
ческим ситуациям вниманне операторов. Это требуется делать «на лету», в реальном 
времени. Кроме того, требуется также формировать и интеллектуальный журнал ви- 
деонаблюдення, который позволит впоследствин при различного рода расследованиях 
отвечать на достаточно гибкие и ситуативно-орнентированные запросы пользователей 
по поиску необходимых видеофрагментов, 

В качестве паллиативного решения сегодня зачастую используется связка сигна- 
лов тревоги от различного рода внешних датчиков с обычным детектором двнження, 
Однако данный варнант является не самым эффективным решением проблемы, Боль- 
шое количество ложно детектируемых ситуаций и невозможность дифференцировать 
задачн наблюдения и типы объектов существенно снижают привлекателькость таких 
систем, 

Поэтому все более явно проявляется необходимость создания эффективных систем 
интеллектуальной видеоаналнтики. Все более востребованы системы видеонаблюде- 
ния, позволяющие строить решения с многоуровневой, гнбко настраиваемой логнкой. 
Подобные интеллектуальные системы позволяют решать не только охранные задачи, 
но полезны H для использования в бизнес-задачах, сбор статистической информации 
и многое другое. Возможность получить точные данные о посещаемости наблюдае- 
мого объекта, распределение посетителей по времени, основным путям передвижения 
и даже возможность ндентификации постоянных клиентов, крайне актуальна для 
многих коммерческих организаций. В рамках города это могут быть также задачи 
автоматического анализа загруженностн транспортных потоков и ряд других. 

Таким образом, современная система видеонаблюдения аккумулирует в себе зиачи- 
тельное колнчество различных технологий компьютерного зрения, включая как соб- 
ственно технологин видеонаблюдення, так и технологии ОСВ (см. выше) и биомет- 
рические технологии, о которых речь пойдет ниже, н ряд других. Комплексная тех- 
нология интеллектуального видеонаблюдения должна включать следующие основные 
элементы и программно-алгоритмическне модули: 

®визуальные датчики различного типа (ТВ, ИК и др.) для дистанционного вндео- 
наблюдения; 

® средства распределенного сбора информации, сжатия, обработки и передачи циф- 
ровой видеоннформацни по локальным и глобальным сетям в реальном времени; 

®автоматическое выделение объектов интереса (люди, транспортные средства, 
другие объекты): 

ө автоматическое слежение за движущимися объектами в зоне наблюдения; 

e биометрическое распознавание персонала, биометрический контроль доступа в 
критические зоны объекта наблюдения; 

®автоматическую идентификацию транспортных средств, грузов и оборудова- 
ння на основе распознавания идентификационных меток (регистрационных номеров, 
штриховых кодов, других технологических маркировок); 

® методы оценки сценариев поведення иаблюдаемых объектов и групп объектов; 

® формирование «тревожных» сообщений оператору в случае реализации неблаго- 
приятных или нестандартных сценариев развития событий в зоне видеонаблюдения; 

е программно-алпаратные средства для реализацни методов и алгоритмов сбора и 
обработки видеоинформации, 
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Системы видеонаблюдения и безопасности, представленные на рынке. Прак- 
тическн каждая из ведущих мировых держав обладает наработками в данной области 
н поддерживает локальные компании, разрабатывающие и производящие продукты 
для систем интеллектуального видеонаблюдения. Большое количество проектов фи- 
нансируется из государственных бюджетов в рамках национальных политик обеспе- 
чения безопасности н контртеррористнческих мероприятий. Это объясняет тот факт, 
что большинство компаний разработчиков платформ для систем видеонаблюдения и 
видеоаналнтики сосредоточены в Северной Америке и Европе. 

Общее количество предлагаемых сегодня на рынке систем вндеонаблюдения H3- 
меряется сотнями различных наименований, отличающимися по качеству исполне- 
ния, сферам применения и объему предоставляемого функционала. Существует ряд 
нзвестных производителей обладающих серьезными наработками и потенциалом. Пе- 
речислнм некоторых из них. 

e/omniscient (Australia) — 19-140 детектор оставленных предметов, 19-120 Детек- 
тор толпы, 19-115 детектор падення, [Q-110 подсчет объектов, 19-100 обнаружение 
вторжения. 

eAimetis (Canada) — интегрированный комплекс безопасностн с распределенной 
архитектурой Aimetis Symphony", интеллектуальные детекторы движения, Almetis 
People Counter. 

e March Networks (Canada) — интегрированный комплекс безопасностн c распреде- 
ленной архитектурой VideoSphere, интеллектуальные детекторы движения, подсчета 
людей, камеры, 

e Milestones (Denmark) — интегрированный комплекс безопасностн с распределен- 
ной архнтектурой XProtect, XProtect Analytics-LPR (распознавание номеров машин), 
камеры. 

eGeuterbrueck (Germany) — интегрированный комплекс безопасности с распреде- 
ленной архитектурой GeViStationXP, интеллектуальные детекторы двнжения, различ- 
ное оборудование. 

e MAGAL (Israel) — интегрированный комплекс безопасности с распределенной ар- 
хитектурой, интеллектуальные детекторы движения, системы обеспечения безопасно- 
сти периметра, датчики движения, оборудование для центров контроля, перифернйное 
оборудованне для систем видеонаблюдения 

eAgentVi (Israel) — интеллектуальные детекторы движения Vi-System, оставлен- 
ных предметов. 

e Male (Israel) — видеоаналитика на базе виде серверов AnalyzR. 

eloimage (Israel) — видеосерверы с встроенной видеоаналитнкой, программная 
платформа ioiware. 

e Nice Systems (Israel) — системы оцифровкн, видеосерверы, интеллектуальные 
детекторы движення NiceVision Analytics. 

eDETEC AS (Norway) — интеллектуальный детектор двнжения, оборудование 
Detec Pro. 

eStratech Systems (Singapore) — видеоаналитнка B области дорожного движения, 
парковок. 

e Cognimatics АВ (Sweden) — Truview, интегрированный комплекс безопасности с 
распределенной архитектурой, интеллектуальные детекторы движения. 

e Institute of Digital and Optical Technologies B. V. (Netherlands) — решения в об- 
ласти компыотерного зрения, B частности, видеоаналитика, программная платформа 
системы видеонаблюдения AnalyticVideo"^ software package, биометрические реше- 
ния. 
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e Сео Vision Inc. (Taiwan) — видеосерверы, камеры, видеорегистраторы, биометри- 
ческие системы. 

e Honeywell International Inc. (USA) — камеры, поворотные зум-камеры, видеоре- 
гистраторы, интеллектуальные детекторы; Honeywell's Active Alert(R) (SW). 

e Pelco International Operations (USA) — камеры и оборудование для камер, си- 
стемы позиционирования, вндеорегистраторы, сетевые видеорегистраторы, матричные 
экраны для видеонаблюдения, детекторы движения. 

e Bosch Security Systems Ltd. (USA) — камеры, поворотные зум-камеры, мониторы 
для видеонаблюдения, вндеорегистраторы, интеллектуальные детекторы. 

eCernium (USA) —  Perceptrak(R) программный продукт, видеоаналитика. 
ExitSentry(&), программный продукт, видеоаналитика в авиационной сфере. 

e Guardian Solutions (USA) — системы раннего обнаружения вторжения на охра- 
няемую территорию. 

e Object Video (USA) — видеоаналитика на цнфровых процессорах. 

e Verint (USA) — интегрированный комплекс безопасности с распределенной ap- 
хитектурой, видеорегистраторы. 

e OnSSI (USA) — интегрированный комплекс безопасности с распределенной ap- 
хитектурой, интеллектуальные детекторы движения. 

e intelli Vision (USA) — интеллектуальные детекторы движения, оставленных 
предметов, подсчета объектов. 

• СОНИ (USA) — камеры, интеллектуальные детекторы движения. 

e Vidient (USA) — видеоаналитика в области оценки дорожного трафика. Детек- 
торы движения. 

e TrueSentry (USA) — ActivEye, интеллектуальные детекторы двнжения. 

e |QEYE (USA) — камеры, видеоаналитика. 

ə DVTEL (USA) — Latitude NVMS Platform, интегрированный комплекс без- 
опасности с распределенной архитектурой, камеры с видеоаналитикой, видеосерверы, 

• Indigo Vision (USA) — оборудование для центров контроля, видеорегистраторы, 
сетевые видеорегистраторы, камеры, поворотные камеры, периферийное оборудование 
для систем видеонаблюдения. 

На сегодняшний день на территории Российской Федерации и в странах бывше- 
го СССР также существует ряд компаний, работающих над созданием продуктов и 
комплексных решений в области систем интеллектуального видеонаблюдения, Вот 
некоторые из них. 

e Компьютерная система обеспечения безопасности помещений и личности на 
базе ПК «Goal 6.0». Данная система производится компанией «Спецлаборатория» 
(г. Иваново, Россия). 

eSivineya — многоканальная цифровая (компьютерная) система видеонаблюдения. 
Система производится компанией КОМКОМ Electronics (г. Москва, Россия). 

e Интегрированная компьютерная система видеоконтроля и безопасности NISS- 
[nspector*. Система производится на Украине компанией «Укр-Инвест-Консалтинг» 
(г.Киев) по лицензии компании 15$ («Интеллектуальные системы безопасности», г. 
Москва, Россия). Торговая марка в России — Инспектор+ (Inspector+). 

e Цнфровая система видеонаблюдения и видеорегистрации VideoNet. Система про- 
изводится концерном РОССИ СП (г. Санкт-Петербург, Россия). 

e Многоканальные компьютерные телевизионные системы видеоконтроля CVS, NT. 
Система производится компанией «Новые технологии» (г. Протвино, Россия). 

e Интегрированный комплекс безопасности с распределенной архитектурой «Ин- 
теллект». Система производится фирмой ITV (г. Москва, Россия). 
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e Система видеонаблюдения с компьютерным зреннем «Ог\уе! 2К». Система npo- 
изводится ГУП НПЦ «ЭЛВИС» (г. Москва. Россия) 

e ЗАО «Институт Информационных Технологий»: системы компьютерного зрения, 
интеллектуальные детекторы движения, оставленных предметов, распознавания HO- 
меров вагонов и автомобилей, биометрические решения. 

Большая часть перечисленных компазий ориентирована на российский рынок. B 
тоже время на российском рынке присутствуют практически все основные междуна- 
родные компании производнтели. По ряду оценок, доля зарубежного оборудования в 
проектах составляет порядка 85-90%. При этом доля отечественного программного 
обеспечення достаточно высока. 

Рассмотрим теперь базовые технологии видеоаналитики н видеокомпрессии. ши- 
роко используемые в данной прикладной области. 


7.6.2. *Анализ движения в задачах видеонаблюдения. 

Выделение движущихся объектов. Разность кадров. Детектирование остав- 
ленных предметов. Анализ движения в самом общем виде подразумевает сравнение 
ряда последовательных (во времени) цифровых изображений сцены наблюдения с 
целью регистрации различного рода изменений, в частности, — определение факта 
движения в заданных областях наблюдения (простейшие детекторы движения), вы- 
деление движущихся объектов и слежение за ними (болес интеллектуальные детек- 
торы или «трекеры» движущихся объектов), обнаружение момента возиикновения 
новых или исчезновения ранее паблюдавшихся объектов (детекторы «оставленных 
предметов») и т.п. 

Простейшим подходом к анализу движения является вычисление межкадровой 
разности. На рис. 7.5.1 показан результат сравнения (Вычитания) двух последова- 
тельиых кадров видеопоследовательности. В результате такой операции хорошо Bbl- 
деляются контуры контрастных по отношению к фону движущихся объектов. 


A 


Рис. 7.5.1. Вычисление межкадровой разиости. Слева — предыдущий кадр. п центре — текущий 
кадр, справа — межкадровая разиость 


Аналогичный прием может быть использован для автоматического выделения в 
ходе видеонаблюлення новых объектов, ранее не присутствовавших в составе паблю- 
даемой сцены. При этом необходимо сначала зафнксировать исходное изображение 
сцены (такое нзображение называется «базовым»). После этого при регистрации каж- 
дого нового нзображення сцены оно сравнивается не с предыдущим, а с базовым. 
Если на протяжении нескольких кадров фиксируется один и тот же объект (область), 
отличный от базового кадра, то принимается решение об обнаружении «нового объ- 
ekta», На рис. 7.5.2 показан результат сравнения (вычитания) текущего и базового 
кадров видеопоследовательности. В результате такой операции хорошо выделяются 
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области контрастных по отношению к ранее зарегистрированному фону «новых» объ- 
ектов. 

В более широком смысле детектор «оставленных предметов» подразумевает реги- 
страцию момента возникновения новых или исчезновения ранее наблюдавшихся объ- 
ектов сцены наблюдения. На практике специфика задачи заключается в том, что хотя 
одновременно в сцене наблюдения может присутствовать множество движущихся и 
неподвижных составляющих, данный детектор должен выделять лишь те объекты, 
которые ранее находились в движении, а затем стабилизировали свое положение на 
заданный промежуток времени, либо наоборот — находились в покое, после чего 
пришли в движение. 


Рис. 7.5.2. Детектироваиие иовых объектов сцены, Слева — базовый кадр, B цеитре — иовый кадр, 
справа — рвзиость иового и базового кадров 


Метод оптических потоков. Движение объектов перед камерой или движение 
камеры в неподвижной окружающей обстановке приводят к соответствующим из- 
менениям на изображении. Эти изменения можно использовать для восстановления 
относительного движения, а также формы объекта. 

Кажущееся движение яркостной картинки, наблюдаемое при движении камеры от- 
носительно изображаемых объектов, называется оптическим потоком, Оптический 
поток является полезным поня- 
тием даже при условии дефор- 
мации наблюдаемых поверхно- 
стей, а в частном случае дви- 
жения твердого тела оптический 
поток строго определен. 

Определим поле движения, 
приписав каждой точке изобра- 
жения вектор скорости. В неко- 
торый выбранный момент вре- 
мени точка Р; на изображении 
соответствует некоторой точке 
Po на поверхности объекта. Эти 
две точки связаны уравнениями 
проектирования. В случае цен- 
тральной проекции луч, прове- 
денный из точки изображения 
через центр оптической системы, продолжается до пересечения с непрозрачной по- 
верхностью (рис. 7.5.3). Точка объекта А перемещается относительно камеры CO CKO- 
ростью ур. Это порождает движение у; соответствующей точки изображения Р.. За 


Рис. 7.5.3. Перемещеине точки виешией среды, вызывающее 
перемещеине соответствующей точки изображения 
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время ót точка Ph перемещается на расстояние vobt, а ее изображение P; — на pac- 
стояние vil. 

Соседние точки предмета имеют близкие скорости. Поэтому предположим, что по- 
ле движения также непрерывно на большей части изображения. Исключение состав- 
ляют контуры изображения объекта, где иарушается непрерывность поля движення. 

Яркостные картины движутся вместе с наблюдаемыми объектами. Оптическим 
потоком, как уже упоминалось ранее, называется кажущееся движение яркостной 
картины. В идеале оптический поток соответствует определенному ранее полю движе- 
ния, однако это не всегда так. Например, в том случае, когда гладкая сфера вращается 
при постоянном освещении, изображение не 
изменяется, хотя поле движения ненулевое: 
в случае, когда неподвижная сфера освеща- 
ется движущимся источником — распределе- 
ние освещенности изображения меняется, хо- 
тя поле физического движения равно нулю. 
Важным практическим случаем такого рода 
является видимое движение элементов струк- 
турированного подсвета при фотограмметри- 
ческом сканировании различных трехмерных 
поверхностей. В этом случае анализ оптиче- 
ских потоков может применяться для повы- 
шения точности стереоотождествления. 

Рассмотрим двумерное пространство с 
Рис. 7.5.4. Локальная ниформация о гра- осями и и U, которые назовем простран- 
диенте яркости и скорости ес изменения ством скоростей (рис. 7.5.4). 


во времени, иакладывающая иа компоиеиты Значения пар (u,v), удовлетворяющих 
вектора оптического потока лишь одно огра- уравнению оптического потока, в простран- 
ничение стве скоростей лежат на прямой линии. Един- 


ственное, что можно сделать с помощью ло- 
кальных измерений, — это найти эту прямую. Можно переписать уравнение опти- 
ческого потока в виде (Ex, Ey) (u,v) = —E,. Компонента оптического потока в Ha- 


правлении градиента яркости (E. Ey)" описывается отношением TT Следует 
заметить, что не удается определить компоненту оптического потока, перпендикуляр- 
ную этому направлению, т.е. направленную вдоль линии постоянной яркости. Эта 
неоднозначность также известна как проблема апертуры. 

Было предложено много методов вычисления оптического потока, которые могут 
быть объединены в несколько общих подходов [356]. 

Дифференциальный подход. Дифференциальный подход основывается на нахож- 
дении скоростей точек изображения по разностной схеме. Первые методы [357'-[359] 
основывалнсь на вычислении производных первого порядка. При этом предполага- 
лось, что яркость в точке остается постоянной в течение небольшого промежутка 
временн, что выражается уравнением 


Э1(х, 9,1) _ 
x ce 


0, 


Отсюда получим уравнение 


VI(z, y,t) - (u,v)" + Г (v, yt) =0. (7.5.1) 
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Также можно сделать предположение о производных второго порядка [359]- [362]: 


ӘУ 1(2,у,0) _ 
"min 


0. 


Тогда, раскрывая дифференциал и градиент по переменным (х,у), получим 


I (2,0,2) Izy (x,y,t) д и + m (z,y,£) = 0 i (7.5.2) 
Ixy (2,9,t) Iy (3,1) v hy (2, yt) 0 
Алгоритм, описанный в [357], основан на минимизации фупкционала (7.5.3), co- 
ставленного из сглаживающей части и части, основаниой на предположении (7.5.1): 


] / (VF -v + л) X (руці? + Уч) ау, (7.5.3) 
р 


Здесь x = (z,y)", v= (u,v)7, / = I(r,y,t). Область D — область, в которой ищется 
оптический поток, Значение коэффициента А определяет уровень значимости сглажи- 
вающей части функционала (7.5.3). Предложения по выбору значения À различаются 
кардинально. Например, в книге [357] предлагается выбирать данную константу рав- 
ной 0,5, в книге [356] — равной 100. 

Минимизирующая функционал (7.5.3) последовательность скоростей VË имеет вид 


. T t Ы d | 
ut! sg 2 TT 
kt (7.5.4) 
k+l Lu 1, I. HS, 
pM отит c 
k 


Здесь и »* — скорости, усредненные по соседним точкам, 

Необходимое количество итераций может варьироваться в зависимости от характе- 
ристик последовательности изображений, В работах [356], [357] предлагается сделать 
не менее 100 итераций. 

Пример работы алгоритма можно видеть на рис. 7.5.5. 

Алгоритм, описанный в [362], основывается на минимизации функционала (7.5.5) 


по области 9, 
35 W*(x) IVI (x,t) у + 1st). (7.5.5) 
хе 


Функционал (7.5.5) содержит взвешенную сумму по точкам, входящим в область 0, 
W(x) — весозая матрица. 
Алгоритм, описанный в [359], минимизирует функционал 


f (VI v Ly 


o? 2 2 2 2 2 2 EN 
t amm 2 " [lusty = uyl) + (01, = и Л + 6(u2 + uy + vz + 1) drdy (7.5.6) 


Данный функционал имеет структуру, похожую на функционал (7.5.3). Отличием 

является иной вид сглаживающей части, который более точно просчитывает поток на 
контурах объекта. Параметр 6 в [359] предлагалось выбирать равным 1, в [356] — 
0,5. Параметр с в (7.5.6) аналогичен параметру а в (7.5.3). 
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Рис. 7.5.5. Оптическнй поток с последующей сегментацией с сохранением номера области 


Корреляционный подход. Дифференциальный подход к вычислению оптическог: 
потока может быть пепрактичен в связи с присутствием шумов на изображениях ип. 
в связи с недостаточным количеством изображений в последовательности. Так были 
предложены корреляционные алгоритмы [363]. [364], основанные на поиске nanay- 
шего смещения d = (4,.4,)Т между областями на последовательности изображений 
Большинство из них осповывается на махсимизации фуикции подобия или па минх- 
мизации 550-фуикционала (Sum-of-Squares Difference); 

п п 
$$0%.1(к.4) = $^ M^ Weij) [h (x+ 0.37) - &(xd(37). — (057 


Я 


55р-функционал представлнет собой функцию смещения d € Z2. 

Метод, предложенный в работе [363], основывается на применении пирамиды Jle- 
пласа, а также 550-функциопала. Мипимум (7.5.7) ищется для пескольких уровней 
пирамиды. Такой подход позволяет определить большие смещения, так как при ис- 
пользовании пирамиды Лапласа строится несколько изображений. (количество изоб- 
ражений определяется уровнем пирамиды). идентичных первоначальному, но умень- 
шенного размера. 

Скорости в данном методе находятся из минимизации функционала 


ВЕ 2 2 
Hi (uz Tcu buLct vy) + Cmax (У Emax — Vo Emax) + Cmin (Уе — Vo Emin) dedy. 


(7.5.81 
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где Emin И fax — направления минимальной и максимальной кривизны SSD- 
поверхности в точке минимума, Cmin И Cmax — Минимальный и максимальный радиусы 
кривизны SSD-noBepxnocTa, Vo — смещение, полученное из решения задачи для более 
высоких уровней пирамиды, Решение находится с помощью итерационного алгоритма 
Гаусса-Зейделя. 

В работе 364| предложен двухэтапный метод. На первом этапе вычисляется 3Ha- 
чение 55)-функционала по трем изображениям: 


SSDo (x, d) = SSDo, (x.d) + $$0%, 1 (х, 4), (7.5.9) 


где SSD,,, (x, d) определено в (7.5.7). Затем значение SSDo (x, d) из (7.5.9) использу- 
ется для генерации вероятностного распределения с плотностью вероятности 


Re(d) = e7™ SP0, 7.5.10) 


где К = —1n0,95/min SSDo. Скорости и. и v, вычисляются как математические 
ожидания смещений а; и dy соответственно, также вычисляется ковариационная 
матрица Se. 

На втором этапе вычисляются скорости Un M Un как взвешенные средние по со- 
седним точкам, вычисляется соответствующая матрица $, и минимизируется функ- 
ционал 


Г (v - va) $71 (v – v) + (v - v s;! (v — ус) dz dy. (7.5.11) 


Здесь скорости 1. и Uc являются известными, а Ilin и Un находятся нз последователь- 
ности точек 
v? = Vo, 


vit = [sz + (8) ] [5; ve + (s) vi]. (7.5.12) 


Решение (u,v) получается из минимизации функционала (7.5.11). 

Частотный подход. Частотный (или мощностный) подход основан на подсчете 
значении выходной мощности фильтров по скорости, базирующихся на фильтрах Фу- 
рье. 

Доказано, что использование данного подхода при фильтрах определенного ви: 
да дает результаты, эквивалентные результатам, полученным в дифференциальном и 
корреляциоином подходах. 

Рассмотрим метод, предложенный в [365]. По задумке создателя данного мето- 
да Хигера Д. фильтр при перемещениях объектов на последовательности изображе- 
ний должен выдавать плоские участки в частотном диапазоне «Мощность» области 
рассчнтывается с помощью (7.5.12) фильтров Габора по каждому диапазону (по раз- 
личным каправлениям и частотам). Ожидаемое значение мощности фнльтра Габора, 
отрегулированного по частотам (kz, ky, м), будет иметь вид 


anto? ol o] (uke + vk 
R(u,v) = exp 2412020302 (uke  vky + w) : (7.5.13) 


(uc, 00? + (voyo) + (ооу) 


где 04, Oy, С; — стандартные отклонения гауссовой компоненты фильтра Габора. 
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Пусть M; — множество фнльтров с одннаковымн регулнровкамн по направленню. 
iz 1,...,12, m, — нзмеренная мощность, R; — предполагаемая мощность. Тогда сред- 
нне значення данных мощностей будут нметь внд 


mis = Y mj В; = У R; (u,v). 


jc Mi j€ M, 


Мнннмум разлнчня между предсказанной н предполагаемой мощностью двнження 
достнгается в точке макснмума функцнн 


2 Ri (u.v) 
f (u,v) = У In. = mem) (7.5.141) 
isl ru 


по скоростям (u, v). 

B заключенне можно OTMeTHTb, что на данном этапе развнтня методов подсчета 
оптнческого потока все больше стал прнменяться стохастнческнй подход, основанный 
на нспользованнн методов, нспользующнх распределення вероятностей для скоростей 
оптнческого потока у [366], лнбо для корреляцнонного вектора смещення 4 [363]. 

Корреяяционное слежение. Корреляцнонное слеженне за объектамн осуществ- 
ляется путем сравнення нзображення объекта, полученного с одного нз предыду- 
щнх кадров вндеопоследовательностн (HIH некоторого базового «шаблона» объекта). 
с последующнмн нзображеннямн вндеопоследовательностн. Прн этом счнтается, что 
макснмуму корреляцнонной функцнн указывает на местоположенне прослежнваемо- 
го объекта на новом кадре. Математнческое опнсанне корреляцнонных методов см. в 
разделе 4.2. 

Ha puc. 7.5.6 показан прнмер корреляцнонного слеження за несколькнми объекта- 
MH. 

Оценка параметров движения. Данные, получаемые в результате процедур ana- 
лнза вндеопоследовательностей, представляют собой спнскн траекторнй покадровых 
перемещеннй объектов илн какнх-то особых точек нзображення. Для того чтобы точ- 
HO оценнть, а желательно н предсказать на будущее характер, скорость H направленне 
двнження объектов используются нзвестные процедуры статнстнческого оценнвання 
временных трендов [88]. 

Модель регрессии и оценка методом наименьших квадратов (МНК). Рассмот- 
рнм модель линейной регрессии: 


E(x|z) = f(z) = Bizi +... + Ваг, 


где t — наблюдаемая велнчнна, 2 = (21,..., 24)— факторы регрессии, В = В.,...,Вк ~ 
нензвестные параметры регрессии (здесь нмеются в виду векторы-столбцы, для удоб- 
ства нзображаемые в внде строк), Ё(т|2) - условное математнческое ожнданне £ прн 
условнн, что факторы регресснн нмеют некоторое конкретное значенне Z. 

В случае, еслн прнрода = H 2 одннакова, говорят о моделн авторегрессии (некой 
велнчнны по себе самой). Напрнмер, в качестве факторов авторегресснн могут вы- 
ступать координаты наблюдаемого объекта на предыдущнх кадрах, а в качестве па- 
раметров perpeccHH — коэффнцненты рекуррентного уравнення ero траекторнн. 

Пусть в 2-м экспернменте (на і-м кадре вндеопоследовательностн) факторы pe- 


гресснн прнннмают значення zl) = Е rae ? = 1,...,п. Тогда после n >k 
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Рис. 7.5.6. Пример корреляциоиного слежения за несколькими объектами. Найленные положения 
объектов (коррелироваиных областей) показаны нрямоугольными рамками 
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экспернментов будет получен набор отклнков х = (z,,..., T4), где 


т = 8,20? +... + Brz + 1, 
T = 82212) +... + Brz? + £2, 


Tac B, 207 +... + Вь =") + En, 


нлн, B матрнчной форме, 
x= 27g t£, 


rne матрнца Z(k x n) (матрнца плана) равна 


Pi A Pu 
Z- = (2...2), 
£o, 9 


Вектор € = (&1,...,Еи) состонт нз случайных ошнбок нзмереннй. 
Требуется по данным матрнце плана Z н вектору результатов X найтн оценкн для 
параметров регресснн В н параметров распределения вектора ошнбок є. 
Оценка методом наименьших квадратов В есть решенне нормального уравне- 
ния x " 
2278 = Zx нли AB = Zx. 


Данное уравненне нмеет едннственное решенне 
& a-l 
В = А Zx 


в TOM н только в том случае, когда матрнца Z(k x п) нмеет полный ранг К, где К < n. 
В предположеннн, что вектор ошнбок = состонт нз незавнснмых случайных велн- 

чнн с нормальным распределеннем №, сз с одной н той же днсперсней, оценка MHK 

совпадает с оценкой макснмального правдоподобня, которая для c? дает выраженне 


n 
$-1y = tix- ZTR = 158 
8-5 8 = к - Z'BIP = -S(B). 


ixl 


Фильтр Калмана. Фнльтр Калмана осуществляет процедуру рекурснвного оценн- 
вання, когда подлежащнй оценнванню снгнал счнтается входным снгналом лннейной 
нестацнонарной дннамнческой снстемы, 

Пусть задана днскретная модель дннамнческой снстемы в внде 


x(^*1) = Ах) + Ви + би) 
уб" = Cx + Du) + gw + yin) 


C нзвестным вектором входных воздействнй и, возмущеннямн по входам W H BO3- 
мущеннямн по нзмеренням у, которые являются «белым» шумом со следующнмн 
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характернстнкамн: 
E(w) = у) = 0, 
E(w win) = 5. 
Е(у y) = бт, 
E(vwon) - N6,m. 


где E(.) — снмвол математнческого ожндання. 
Требуется выполннть сннтез наблюдателя лля оценнвання вектора переменных 
состояння снстемы, который миннмнзнрует установнвшуюся ошнбку оценнвання, 


p(x,X) = lim E((x — x)(x -- Я}. 
(>< 
В этом случае фнльтр Калмана опнсывается уравненнямн 


ROD = АЗС + Ви + L(y, - ca — Du™), 
$"| _ |C(1- MC) go, |(E-CM)D CM| Jut 


y" 1- MC -MD м | |у 


где матрнца коэффн цнентов обратных связей L н новая матрица коэффнинентов 06- 
ратных связей М определяются на основе решення матрнчного алгебранческого урав- 
нення Рнккатн. 

Наблюдатель нспользует нзвестные входы u^) н результаты нзмереннй yt? ‚ нска- 
женные случайнымн помехамн, для того чтобы вычнслнть оценкн вектора переменных 
состояння x? н выходов у("). 

Обновленная матрнца коэффнцнентов обратных связей М прнменяется, для того 


чтобы уточнить предсказание х(*) на основе нзмерення у(”) 


gt = Я) 4 м(у(") - cx) - Ри”), 


7.5.3. *Аиализ движеиия в задачах компрессии и передачи видеоданных. 
Цнфровое вндео сегодня шнроко распространено в основном благодаря спутннковому, 
кабельному н домашнему телевнденню. Кроме того, на цнфровое вндео быстро пере- 
ходят многне бытовые устройства такне, как вндеопронгрывателн (замещенне УН$ 
кассет на DVD н MPEG-4 днскн), вндеокамеры (съемка в цнфровые форматы DV 
н МРЕС-2), н даже телевизоры с аналоговой электронно-лучевой трубкой быстро 
сменяются LCD-TeneBH30paMH, цнфровымн проекцноннымн системамн и плазменны- 
мн панелямн. Во всех этнх устройствах нспользуются алгорнтмы обработкн н сжатня 
вндео. 

Задача оценкн двнження является ключевой прн работе с цнфровым вндео. Прнчн- 
ной этому является нсключнтельная важность ннформацнн о движеннн прн анализе 
временной составляющей вндеоснгнала, которая, в свою очередь, является важнейшей 
характернстнкой вндеосигналов н во многом определяет спецнфику задач цнфровой 
обработкн вндео. Поясннм это на прнмере задачн сжатня вндео. 

В первых снстемах сжатня цнфрового вндеокадры обрабатывалнсь He3aBHCHMO 
друг от друга. Каждый кадр коднровался как нзображенне, а не как часть вндео- 
потока. Затем появнлнсь алгорнтмы, нспользующне вычнтанне соседних кадров. В 
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HHX коднровалнсь He самн кадры, а разница каждого кадра c предыдущнм. Этот прн- 
см обусловнл значнтельный рост эффектнвностн алгорнтмов сжатня благодаря TONY 
факту, что соседнне кадры вндеопотока, как правнло, очень похожн, н нх разнниа 
часто блнзка к нулю. Исключеннем из этого правнла были случан палнчня двнження 
между соседннмн кадрамн. Следующнм шагом стало появленне алгорнтмов, исполь- 
зующнх компенсацню двнження. Компенсацией двнження называется преобразованне 
одного кадра нз пары последовательных кадров, нспользующее ннформацню о ABH- 
женнн между этнмн кадрамн, н осуществляемое такнм образом, чтобы положение н 
размеры всех внднмых объектов в кадре оказалнсь по возможности более блнзкимн 
к HX положенню н размеру на втором кадре пары. Другнми словамн, компенсацня 
двнження делает однн нз кадров пары макснмально похожнм на другой, нспользуя 
ннформацню о двнженин между HHMH. Таким образом, компенсацня двнжения поз- 
воляет нспользовать прн сжатнн нз‹быточность вндеопотока во временн даже прн 
налнчнн двнження между кадрамн, чего не могли делать алгорнтмы сжатня вндео 
предыдущего поколення. 

Заметнм, что существуют две основные областн прнменення алгорнтмов оценки 
двнження (ОД): сжатие n анализ видео. B этнх областях к алгорнтмам ОД предъяв- 
ляются разлнчные требовання. Прн сжатнн вндео крнтнческое значенне нмеет объем 
храннмой ннформацнн о двнженнн н скомпенснрованной межкадровой разннце (раз- 
ннце между текущнм кадром H скомпенснрованным). Прн этом неважно, соответству- 
eT лн направленне найденных векторов двнження реальному двнжению объектов B BH- 
деопотоке: главное — мнннмнзацня скомпенснрованной межкадровой разницы. В ал- 
горитмах вндеоаналнза, напротнв, объем ннформацнн о двнженин не нграет ннкакой 
ролн. Основное значенне здесь нмеет точность найденной ннформацнн о двнженнн. 
соответствне найденных векторов реальному двнженню в вндеопоследовательностн 
(true motion estimation). Ввнду особой важностн задачн ОД, к настоящему момен- 
ту было разработано множество разлнчных алгорнтмов, которые можно разделнть на 
следующне основные группы: блочные методы, методы оптнческого потока, фазовой 
корреляцин, глобальной оценкн двн ження, слеження за особенностямн, многокадро- 
вой ОД, а также алгорнтмы, комбнннрующие прнемы методов указанных категорнй. 
Одной нз нанболее популярных является группа блочных методов. Это обусловлено 
уннверсальностью, невысокой вычнслнтельной сложностью н сравннтельно высокой 
эффективностью алгорнтмов этой категорнн. Не последнюю роль сыграла также про- 
стота нх аппаратной реалнзацнн. Именно по этим прнчннам в задачах компресснн H 
передачн вндео традиционно нспользуются в основном блочные алгорнтмы ОД, крат- 
кнй обзор которых представлен HHXKe. 

Модель движения на изображеиии. Цнфровое вндео представляет собой упоря- 
доченный набор кадров (вндеопоследовательность). Вндеопоследовательность будем 
обозначать как 1 (2), rne t — порядковый помер кадра. Каждый кадр — это матрнца 
пнкселов, размер этой матрнцы обозначнм з X h. 

Будем нспользовать следующие обозначення: р = (x,y) € [0, w - 1] x [0, k- 1] — 
вектор координат пнксела в кадре, Z(p,£) — яркость пнксела c коордннатамн р = (=. у 
в кадре /({). Вообще говоря, яркость — это только один нз цветовых параметров NHK- 
села, Существует множество цветовых моделей (RGB, YUV, Lab н т. д.), в каждой 
нз которых цвет определяется несколькнмн компонентамн, Однако человеческий глаз 
нанболее чувствнтелен к яркостной компоненте. По этой прнчнне, а также для про- 
стоты нзложення далее будем предполагать налнчне только яркостной компоненты 
(полутоновое вндео). 

Информацией о двнженнн в обработке вндео называют двумерный масснв векто- 
ров движения, размер которого равен размеру кадра tw x h. Прн этом под вектором 


7.5 ВИДЕОНАБЛЮДЕННЕ И СИСТЕМЫ БЕЗОПАСНОСТИ 573 


двнження в заданной точке поннмается вектор нзменення коордннат этой точкн меж- 
ду двумя заданнымн кадрамн. Поясним смысл этого понятня с помощью рнс. 7.5.7. 
Рассмотрнм трехмерную сцену без двнження н два 
кадра Л = 1 (t1), Г = 1 (t2), полученных прн nomo- 
щн камеры H3 разных точек. Точке P трехмерной 
сцены в кадре 7, соответствует инксел C коорднна- 
тами pı. Будем его называть образом точки P на 
кадре Г. Тогда образом точкн P на кадре [2 6y- 
дет пнксел с коордннатамн р». Сразу 3aMeTHM, что 
под образом здесь поннмается не само нзображенне 
точкн P на кадре, а вектор коордннат ee проекцнн 
на матрнцу камеры. Это означает, что образ точ- 
кн Р определен даже тогда, когда ее нзображенне 
на кадре отсутствует, напрнмер, вследствне налн- 
чия какого-либо объекта на переднем плане. Век- 


тор движения V в точке р. для пары кадров Д и 12 
определяется как: Рис. 7.5.7. Схема вычисления векто- 


ра движения 


MÀ 


`~ 
`~ 
hi eL 


V? (ра) = (u,v) = p, – ро. 


В данном примере рассмотрен случай неподвижной сцены и движущейся камеры. B 
общем случае. изменение координат точек трехмерной сцены на кадрах может быть 
обусловлено как движением камеры, так и движением объектов сцены. 

Общая схема алгоритмов блочной оценки движеиия. Каждый кадр видеопосле- 
довательности разбивается на множество неперекрывающихся блоков В;.; заданного 
размера, где i, j — координаты блока. Разбиение производится так, что все блоки 
покрывают весь кадр, т.е. их суммарная площадь равна площади кадра. 

Задача ОД сводится к задаче поиска вектора движения у;; для каждого блока 
B; j. При этом векторы Vij определяются соотношением (7.5.15): 


Vij = srg mid, F(t ij vij), (7.5.15) 

о = { (2,0) | T € [7 max: Umax] , y € [^Y max: Vmax! } 1 (7.5.16) 

SAD(Lijv)- Y; II(p.t) - I(p*v.t—1), (7.5.17) 
РЕВ...) 


где О — область поиска векторов движения, Umax: Ymax — Целые положительные чис- 
ла; F(t,i,3. v4;) — функция соответствия блоков, это мера блнзости блоков текущего 
и предыдущего кадров. Примером такой функции является SAD (Sum of Absolute 
Differences), определяемая формулой (7.5.17). 

Суть работы алгоритмов данной группы заключается в следующем. Для каждо- 
го блока текущего кадра производится минимизация функции соответствия блоков 
по 4-му аргументу, при этом область минимизации может быть любой, единствен- 
ным ограннчением является то, что она должна быть подмножеством области поиска 
О. В качестве вектора движения для каждого блока выбирается аргумент миниму- 
ма функции соответствия, вычисленный в этом блоке. Фактически при вычислении 
функции соответствия производится определение «похожести» двух блоков: блока Te- 
кущего кадра и блока предыдущего кадра, смещенного на вектор у; ;. Таким образом, 
процесс минимизации функцин соответствия является поиском блока предыдущего 
кадра, наиболее «похожего» на текущий блок. 
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Важно заметить, что размер области поиска определяет максимальный модуль 
векторов движений. На практике нередки случаи, когда алгоритм ОД не в состоянии 
найти верные векторы движения только потому, что амплитуда движения в видео 
слишком велика. 

Для удобства дальнейшего изложения кадр, для блоков которого производится по- 
иск соответствий, будем называть текущим, а кадр, в котором производится поиск — 
опорным. 

Рассмотрим теперь наиболее базовые подходы к блочной ОД такие, как полный 
перебор, шаблонные методы, метод иерархического поиска и методы, использующие 
векторы-кандидаты. Описание начнем с наиболее простого и очевидного алгоритма 
полного перебора. 

Алгоритм полного перебора. Поскольку область поиска O коиечная, TO наибо- 
лее очевидным методом минимизации функции соотношения блоков является полный 
перебор всех значений аргумента v € О. 

Данный подход имеет свои достоинства и недостатки. Достоинством данного ме- 
тода является гарантированное нахождение глобального минимума функции соот- 
ветствия для каждого блока. Однако, как было замечено во введении, не во всех 
приложеннях важно найти именно глобальный минимум. В обработке видео крити- 
ческое значение имеет определение «истинных» векторов движения, независимо OT 
величины соответствующих им значений функции соответствия. 

Очевидным недостатком является вычислительная сложность данного метода. Да- 
же в свете высокой мощности современных процессоров, полный перебор может быть 
неприемлем для обработки в режиме реального времени в случае высокого разреше- 
ния видео и большой области поиска. 

Логическнм продолжением алгоритма полного перебора являются методы шаблон- 
ного поиска. 

Методы шаблонного поиска. Данные методы представляют собой дискретные ва- 
рианты покоордннатного спуска. Они основываются на предположении, что функция 
соответствия достаточно гладкая для каждого блока, без локальных минимумов. 

Перед началом опнсания общей схемы алгоритмов данного класса следует ввести 
понятие шаблона. Шаблоном является набор координат точек, причем координаты 
точек отсчитываются от центра шаблона. Таким образом, для произвольно заданной 
точки по шаблону можно определить набор координат несколькнх точек, число этих 
точек зависит от используемого шаблона. 

Поиск вектора в каждом блоке является итеративным процессом. На каждой нте- 
рации вычисляется координата центра шаблона, координаты всех точек шаблона, и 
затем значения функции соответствия в каждой нз точек шаблона. Центр шаблона 
на первой итерации называют центром поиска. Он обычно равен (0,0). В качестве 
центра шаблона для- следующей итерации выбирается та точка шаблона, в которой 
был достигнут минимум функции соответствия. Затем проверяется условие останова 
поиска, и в зависимости от результата производится переход к следующей итерации 
или завершенне поиска вектора в данном блоке. При этом в качестве результата выби- 
рается вектор, соответствующий точке минимума функции соответствия на шаблоне 
последней итерации. 

Таким образом, шаблонный алгоритм ОД определяется используемым шаблоном. 
Наиболее часто используемыми на практике шаблонами являются болыной и малый 
ромбы (БР и МР), большой и малый квадраты, а также большой и малый коесты (см. 
рис. 7.5.8). 

Основным недостатком методов данного класса является их склониость к нахож- 
дению локальных минимумов функции соответствия вместо глобальных. В каждом 
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блоке, как правило, выбирается вектор. соответствующий одной из ближайших к цен- 
тру поиска точек локального минимума функции соответствия, а вовсе не «HCTHHHO- 
му» движению или ее глобаль- 
ному минимуму. Однако у дан- 
ного класса методов есть су- 
щественное достоинство: они 
значительно сокращают перебор 
возможных векторов движения, 
тем самым ускоряя алгоритм. 

В современных алгоритмах 
оценки движения шаблонный О сольной pouó (6P) 
поиск, в основном, используется малый pou (МР) (О) больной квадрат (С) большой крест 
для финального уточнения век- эластичный ромб (3p) И малой коодрет Ф мелыйкрест 
торов, полученных на предыду- 
щих шагах. При этом на разных Рис. 7.5.8. Примеры шаблонов поиска 
итерациях могут использовать- 
ся различные шаблоны. Наиболее интересные примеры алгоритмов данного класса 
можно найти в статьях [367], [368]. 

Иерархический поиск. Идея алгоритмов данной группы заключается в следу- 
ющем. Перед началом поиска производится вычисление №-1 уменьшенных «копий» 
текущего и опорного кадров, при этом каждая очередная копия B 2n (п — натуральное 
число) раз меньше предыдущей (см. рис. 7.5.9). Пары кадров одинакового размера бу- 
дем называть уровнями, т. е. на одном уровне опорный н текущий кадры одинакового 
размера. Тогда все мпожество пар кадров можно представить N уровнями. Пронуме- 
руем уровни согласно размеру содержащихся в них кадров от меньшего к большему: 
1-й уровень будет содержать 
кадры минимального размера, 


z M " La CUAL 
№-й — кадры исходного разме A ? - 
ра. Процесс оценки движения ——— 
состоит из № итераций, на каж- : 2 > 

ia 9 ue А 

дой из которых обрабатывается — 
пара кадров из уровня c COOT- — _ > E " 
ветствующим номером, T. e. o6- _ a ч 
работка идет от кадров мепыпе- "е мень. m Ра "0 ЗЕЕ 


го размера к большему. Ha каж- 
дой итерации производится ОД Рис. 7.5.9. Схема иерархнческих уровней 
каким либо из известных мето- 
дов, например, шаблонным поиском. При этом в качестве стартовой точки на каждой 
итерации выбирается векторное поле, полученное с предылушей итерации. Другими 
словами, каждая очередная итерация производит уточнение векторов, вычисленных 
на предыдущей итерации. При переходе на очередную итерацию размерь: области no- 
иска и блоков, для которых оцениваются векторы, обычно увеличиваются в 2л раз, 
для того чтобы число блоков в кадре на каждой итерации не менялось. 
Достоинством алгоритмов данной групиы является перебор сокращенного числа 
векторов, т. е. повышенная вычислительная эффективность. Однако это достоииство 
нивелирустся в случае использования постоянного размера блоков и областей поиска 
при переходе с одного уровня на другой. Тем пе менее, есть аргумент в пользу того, 
чтобы фиксировать размер блоков и областей для всех итераций. При фиксированном 
размере блоков повышается устойчивость векторов в гладких областях, поскольку ве- 
роятиость попадапия контрастных деталей возрастает вместе с ростом площади блока. 
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Это позволяет частично решить одну из основных проблем блочных методов ОД — 
проблему поиска векторов в гладких областях. Для блоков из таких областей функ- 
ция соответствия принимает очень близкие (или даже равные, в случае абсолютио 
гладких областей) значеиия для различных векторов движения, т.е. эффективность 
использования ее значений в качестве основного крнтерия выбора вектора сводится 
к минимуму. Повысить вероятность успешного нахождения вектора движения позво- 
ляет использование блоков большего размера, по это эффективно лишь в случаях. 
когда размер блока больше размера гладких областей. Возвращаясь к иерархическо- 
му подходу, можно сказать, что выполнение ОД при фнкснрованном размере блока 
на уровнях с уменьшенными кадрами позволяет повысить вероятность попадания в 
блок контрастных деталей (и тем самым увеличнть вероятность успешного нахож- 
дения вектора) по сравнению со случаем нзменения размера блока при переходе на 
следующий уровень. 

Постоянный размер области поиска позволяет увеличить максимальную амплиту- 
ду векторов движения по сравнению со случаем, когда размер области понска умень- 
шается вдвое при переходе на очередной уровень. 

Дополнительным преимуществам данного метода является устойчнвость к шуму. 
поскольку во время уменьшения изображений, как правило, удаляются высокочастот- 
ные шумы. Однако вместе с высокочастотными шумами могут пропасть и мелкие 
детали, что приведет к неправильному определению двнжения в детализированных 
областях. 

Методы данного класса находят широкое применение во многих задачах обработ- 
ки видео [369], [370]. В работе [369] опнсывается орнгинальный способ уменьшения 
вычислительной сложности нерархического поиска. Авторы предложнли две идеи: 
улучшенный крнтерий определения неверно найденных векторов и метод выбора на- 
чального уровня иерархии. Уменьшение сложности определения «плохих» векторов 
достигается за счет использовання функции соответствия блоков с меньшей вычис- 
лительной сложностью по сравнению с SAD. Начальный уровень иерархии выбирается 
на основе предположення о близости значений функции соответствия для векторов из 
небольшой окрестностн. Авторы предлагают выбнрать начальный уровень иерархин 
на основе анализа данных, полученных прн вычислении значений функцнй соответ- 
ствия для векторов из небольшой окрестности. 

Методы, использующие векторы-кандидаты. Для большинства видеопоследова- 
тельностей справедливо утверждение, что векторы движения соседних блоков очень 
похожи, так как эти блоки зачастую принадлежат одному движущемуся объекту. 
Это утверждение привело к появлению целого класса методов ОД, нспользующих 
векторы-кандидаты. 

Основная идея алгоритмов этой группы очень проста. Перед вычисленнем ин- 
формации о движении для текущего блока формируется набор, состоящий из уже 
вычисленных векторов двнжения соседних блоков. При этом соседние блоки могут 
выбираться как в пространственной областн, так и во временной. Сформированный 
набор векторов называется набором кандидатов, В качестве вектора двнжения в каж- 
дом блоке выбирается лучший вектор нз набора кандидатов. В качестве критерия 
понска обычно нспользуется функция соответствия. Наиболее яркими представите- 
лями алгоритмов данной группы являются 3DRS [371] n E3DRS (Enhanced 3DRS. 
[372]). 

Метод 3DRS (30 recursive search) формнрует набор векторов-кандидатов нз Hañ- 
денных векторов движения со смещениямн (—1,—1) и (1,—1) в текущем кадре и 
(72,2), (2,2) в предыдущем кадре. К первым двум векторам-кандндатам прибавля- 
ется равномерно распределенный случайный вектор с амплнтудой до +3 пикселов. 
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После этого из полученных кандидатов выбирается вектор c нанменьшей SAD. Hc- 
пользованне векторов-кандидатов, взятых с различных направлений, позволяет мето- 
ду 3DRS достаточно быстро сходнться к реальному направлению движення вблнзи 
границ объектов по сравнению с более простымн методамн. 

В методе E3DRS используется похожнй набор векторов-кандидатов, однако здесь 
нмеется стадия дополнительного поиска вектора с наилучшей ЗАО по шаблону «ма- 
лый квадрат» (см. рис. 7.5.8) вокруг выбранного вектора-кандидата. Это обеспечивает 
лучшие величины SAD, чем у метода 3DRS. 

Методы, использующие векторы-кандидаты, часто имеют низкую вычислительную 
сложность, но прн этом обеспечивают гладкость векторного поля, что делает их при- 
годнымн для нспользования в аппаратуре реального времени. 

Комбииированные методы. В большинстве современных блочных алгоритмов 
нахождения движення используются различные комбинацни базовых подходов, опи- 
санных выше. 

Наиболее популярной комбннацией является совместное нспользование подхода, 
использующего векторы-кандидаты, и шаблонного поиска. Идея методов данной груп- 
пы состоит в уточнении лучшего вектора набора с помощью шаблонного поиска. Бла- 
годаря простоте и вычислительной эффективности алгоритмы данной группы доста- 
точно часто становятся предметом интереса исследователей ([373]-[375]). В качестве 
примера рассмотрим наиболее популярный из современных представителей данной 
группы алгоритм ЕАМЕ (Fast Adaptive Motion Estimation), описанный в статье [375]. 

Этот алгоритм использует приемы для быстрого определения неподвижных бло- 
ков, повышення устойчивости поиска векторов в гладкнх областях, раннего останова 
поиска для экономии вычислительных ресурсов, 
а также повышения эффективности использова- 
ния наборов кандидатов и шаблонов. В рамках ОНЫЙ занонда 
данного раздела наибольший ннтерес представ- А 
ляют последияя пара приемов. Рассмотрим их 60- 
лее подробно. 

Повышение эффектнвностн нспользовання 
наборов кандидатов достигается за счет добавле- 
ния в набор дополнительных векторов. Стандарт- 
ный набор включает в себя векторы из З блоков, х 
находящихся слева, сверху и справа сверху от- А 
носнтельно текущего блока. Помимо них в набор ` Блок предыдущего Блок текущего 
добавляются еще два вектора. Первый вычисля- кадра кадра 
ется как среднее значенне векторов стандартного 
набора. Второй называется инерционным канди- 
датом и равен вектору того блока предыдущего 
кадра, проекцня которого на текущий кадр имеет 
наибольшее пересечение с текущим блоком (см. рис. 7.5.10). При этом проецнрова- 
ние осуществляется вдоль вектора предыдущего кадра. Стоит заметнть, что имеется 
в виду именно предыдущий кадр, а не опорный, т. е. инерционный вектор выбирается 
из векторного поля, вычнсленного алгоритмом ОД для предыдущего кадра. Фактиче- 
ски этот прием использует предположение о равномерном движении объектов, а сам 
инерционный кандидат является продолжением траектории двнжения блока предыду- 
utero кадра. Инерционный кандидат также используется в алгорнтмах, описанных B 
статьях [375|-[377]. Наличие указанных двух дополнительных кандидатов позволяет 
повысить точность поиска векторов. 


Рис.7.5.10. Схема вычислении инерци- 
онного кандидата 
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Новизна в использовании шаблонных методов заключается B следующем. Алго- 
ритм использует шаблоны БР, МР и шаблон «эластичный ромб» (ЭР, см. рис. 7.5.8). 
Использование этих шаблонов при поиске вектора в каждом блоке зависит от несколь- 
ких характернстик локальной окрестности текущего блока. В частности, используется 
величнна, характеризующая гладкость векторного поля, и ошнбкн компенсации сосед- 
них блоков. В зависимости от условий, справедливых для этих величин, производится 
выбор одной нз 3 стратегий поиска, при этом в рамках каждой стратегни могут быть 
использованы не все 3 шаблона. Полное описание стратегий поиска можно найти в 
работе [375]. 

Следует отметить, что алгоритмы каждой из рассмотренных групп имеют свои 
достоинства н недостатки. Ни один из базовых методов, использованных в чистом 
виде, не дает приемлемых результатов на практике. Для построения эффективного 
метода оценки движения необходимо комбинировать приемы, использованные в ал- 
горитмах различных типов, так, чтобы недостатки одного метода компенсировались 
достоинствами другого. Примером такого метода является алгоритм РАМЕ [375]. со- 
четающий использованне векторов-кандндатов, методов шаблонного поиска, условий 
раннего останова понска, способов быстрого определения пеподвижных блоков и др. 

Блочные алгоритмы оценкн движения являются весьма выгодным компромиссом 
по соотношению вычислительная сложность /точность найденных векторов. Комби- 
нирование приемов из алгоритмов разлнчных категорий в рамках класса блочных 
методов позволяет построить универсальные алгоритмы ОД, обладающне заданными 
свойствами и легко реализуемые аппаратно. 

Рассмотрим теперь ряд элементов видеоапалитнки, реализованных на основе TEX- 
нологий обработки и апализа нзображеннй. 


7.5.4. Система обнаружения и сопровождения движущихся объектов по при- 
знаку их движения. Данная система, разработанная в ИИТ, иллюстрирует большой 
класс задач, объединяемых термином «анализ движения», и предназначена для ав- 
томатического выделения и сопровождения малоразмерных объектов по признаку их 
движения на изображениях, получаемых с подвижной видеокамеры. 


Рис. 7.5.11. Выделение движущихси объектов сцены наблюдення 
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Система реализована на базе персонального компьютера. Осуществляет ввод с 
видеокамеры, визуализацию и обработку цифровых изображений движущихся сцен в 
реальиом времени. Система производит оценку и компенсацию общего сдвига изоб- 
ражепия сцены, пронсходящего за счет собственного относительного движения при- 
смпика изображения, а также выделение движущихся малоразмерных объектов по 
признаку нх движения и одновременное сопровожденне движения нескольких обна- 
руженных объектов. 

На рис. 7.5.11 показаны: слева — кадр видеопоследовательности с выделенными 
движущимися объектами; справа — стадии выделения двнжущихся объектов. 

Также в системе реализован режим слежения за одним объектом, выбираемым опе- 
ратором вручную (puc. 7.5.12). В случае если видеокамера снабжена сервоприводом, 
позволяющим перемещать оптнческую ось камеры, может быть задействован режим 
физического сопровождения наблюдаемого объекта (система управляет приводом та- 
ким образом, чтобы выделенный объект в процессе движения все время находился в 
центре кадра). 


Рис. 7.5.12. Режим слежения за указанным объектом 


7.5.5. Интеллектуальный детектор и трекер движущихся объектов. Данная 
система предназначена для автоматического выделения и сопровождения крупнораз- 
мерных объектов (сравнимых по габаритам с размерамн самого кадра) по признаку их 
движения па изображениях, получаемых с неподвижной видеокамеры. Этот пример 
демопстрирует реализацию принципов метода анализа оптических потоков. 

В литературе предложено множество различных методов вычнсления оптического 
потока. Особенность данной системы, разработанной в ИИТ, заключается том, что 
для оцеикн оптического потока используются не столько дифференцнальные, сколько 
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интегральные методы. После вычнсления оптического потока осуществляется форми- 
рованне гипотез о положении и размерах движущихся объектов. 
Пример работы детектора движения можно видеть на рис. 7.5.13 и рис. 7.5.14. 


Рис. 7.5.14. Пример выделеини и прослеживании двнжущихся объектов 


7.5.6. Детектор оставленных предметов. Еще один пример модуля «анализа 
движения» для систем видеонаблюдения. Детектор «оставленных предметов» под- 
разумевает регистрацию момента возникновения пювых или исчезновения ранее Ha- 
блюдавшихся объектов сцены наблюдения. При этом специфика задачи заключается 
B TOM, что хотя одновременно в сцене паблюдения может присутствовать мпожество 
движущихся и неподвижных составляющих, данный детектор должен выделять лишь 
те объекты, которые ранее находились в движении, а затем стабилизировали свое NO- 
ложенне на заданный промежуток времени, лнбо наоборот — находились в покое. 
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после чего пришли в движение (рис. 7.5.15). Детектор «оставленных предметов» B 
осповпом применяется в системах видеонаблюдения, устанавливаемых с контртер- 
рористическими целями в местах массового скоплення людей. В то же время. этот 
модуль использустся для решения таких задач, как отслеживание загрузки парковки 
и контроль состояння ценных объектов (например, музейных экспонатов). 


Eu | | 


Рис, 7.5.15. Детекгирование оставлеиного предмета: вверху — выделениые «повые» элементы H306- 
ражения в момеит движения, виизу — обнаружение оставлениого предмета по истечении заданного 
времени стабилизации изображения 


Функции системы: 

® обиаруженне новых объектов сцены наблюдення; 

e обнаруженне пропавших объектов сцены наблюдения; 

® регистрация новой сцены наблюдения; 

® контроль отсутствия сдвигов камеры относительно сцены наблюдения. 

Параметры работы системы: 

e список областей интереса, в которых происходит регистрацня новых и пропавших 
объектов сцены наблюдення; 

® список областей игнорирования, в которых не происходит регистрация новых и 
пропавших объектов сцены; 

®минимальные допустимые размеры регистрируемых объектов (высота, ширина, 
площадь); 

® максимальные допустимые размеры регистрируемых объектов (высота, ширина, 
площадь); 

e период времени стабилизации положения объекта, по истечении которого объект 
считается не движущимся, а новым стабильным объектом сцены наблюдения. 

Список формируемых «охранных событий»: 

e ‹обпаружен новый объект»; 
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® «обнаружен пропавший объект»; 

® «камера сдвинута либо сцена наблюдения внезапно изменилась». 

Входные данные: 

® видсопоследовательность изображений с разрешением 8/16/24/32 бит (последо- 
вательность файлов JPEG либо поток формата AVI); 

* мннимальный размер кадра: 320 x 240; 

e максимальный размер кадра: 704 x 576. 

Выходные данные: 

ө сигналы об «охранных событнях»; 

e список объемлющих прямоугольников для вновь обнаруженных новых объектов; 

e список объемлющих прямоугольников для вновь обнаруженных пропавших объ- 
ектов. 

Производительность системы: 

e обработка 4 независимых видеоканалов с частотой 25 кадров в секунду на одном 
ПК; 

e обработка 16 независимых видеоканалов с частотой 6 кадров в секунду на одном 
ПК. 

Показателн производительности определены для видеопотока кадров размером 
320 х 240 на ПК типа ІВМ PC PentiumIV-3,2. 


7.5.7. Система стереообнаружения движения в зоне видеонаблюдения. В 
современных системах видеонаблюдения задача анализа движения, как правило, рас- 
сматривается как задача, решаемая на базе информации, получаемой от одной ви- 
деокамеры. Однако такие системы анализа движения имеют ряд очевидных недостат- 
ков: онн регистрируют движение теней, световых пятен (например, от автомобильных 
фар), движение изображений на телевнзионных моннторах и т. п. артефакты. в то вре- 
мя как с точки зрення обеспечення безопасности необходимо регистрировать лишь 
движение реальных трехмерных объектов заданного размера в заданной трехмерной 
области наблюдения. Использование стереоинформации позволяет преодолеть указан- 
ные недостатка стандартных детекторов движения. 

В ИИТ разработан прототип системы стереообнаружения нарушителей в контро- 
лируемой зоне видеонаблюдения (рис. 7.5.16). Принцип действия системы основан 
на использовании оригинального метода дифференцнального ортофото, используемом 
также в проекте «система обнаружения препятствий на дорогах» (см. выше). 

Состав системы: 

ө стереосистема из двух ССО-камер: 

•ІВМ-совместнмый персональный компьютер, оборудованный платой одновремен- 
ного захвата двух цифровых изображений; 

ө специализированное программное обеспечение. 

Функции системы: 

е однократная трехмерная реконструкция тестового пространства/помещения (в 
момент включения); | 

® обнаружение новых/неизвестных (не входящих в трехмерную модель) объектов 
(в реальном масштабе времени в режиме охранного видеонаблюдения); 

e определение дальности и характеристик двнжения выделенных объектов (B pe- 
альном масштабе временн); 

eoueHKa размера н характера движения обнаруженных объектов с целью селек- 
ции людей-нарушителей от других возможных типов объектов (в реальном масштабе 
времени). 

Характеристики системы: 

® размер контролируемой рабочей области — 10 м х l0M x 5 M; 
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® устойчивость работы системы относительно следующих типов помех: 

— движущиеся тени и пятна света на пеподвижных поверхностях; 

— движущиеся мелкие животные; 

— движенне на экранах мониторов, телевизоров и т. п. объектах в поле зрения; 

— вибрации здания; 

— движущиеся объекты за пределами контролируемой зоны/помещения, наблюда- 
емые через дверь, окно и т. п. 


Рис. 7.5.16. Пример стереообиаружения объекта в зоне наблюдения 


7.5.8. Система считывания регистрационных номеров автомобилей. Как уже 
говорилось выше, одной из функций комплексных систем видеонаблюдения является 
считыванне идентификационных меток объектов, прежде всего — номеров транспорт- 
ных средств, пересекающих зону наблюдения. 

Одним из типовых приложений такого рода является разработанная в ИИТ система 
выделения и распознавания номерных знаков автомашин в потоке на автомагистрали 
(рис. 7.5.17). Система считывания автономеров реализована на базе снстемы видео- 
наблюдення «Интеллект» фирмы ITV и внедрена на ряде зарубежных автомобильных 
трасс. 

Функции системы: 

® регистрация появления автомобнля (подсчет автомобилей); 

® выделенне номерного знака; 

® распознавание символов номерного знака; 

® сохранекие распознанного номера в базе данных. 

Характеристики: 

® обработка до 4 видеоканалов 320 х 240 на одном процессоре в реальном масштабе 
времени; 

® макснмально допустимая скорость автомобилей 120 км/час; 

e вероятность распознавания при скорости движення до 80 км/час: 

— день — до 0,85; 

— ночь — до 0,8. 

e ширина зоны коптроля при фронтальном размещении камеры — Зм; 

® допустимый угол наклона изображения номера — до 15°; 

® освещенность в зоне контроля — не менее 50 люкс. 


Рис. 7.5.17. Примеры считывания иНостраиных автомобильных померов 
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7.5.9. Система считывания номеров железнодорожных вагонов и цистерн. 
Несмотря на развитие систем учета движения объектов, базирующихся Hà радиочг- 
стотных метках (RFID), задача автоматического выделення и распознавання номероз 
железнодорожных вагонов и цистери остается по-прежнему актуальной. Особеннс 
это касается такнх стран с развнтой сетью железиых дорог и большнмн объемами 
грузовых перевозок, как, напрнмер, Россия или Индня. Подобный функционал также 
прнменим для считывання номеров контейнеров в транспортных и портовых термнна- 
лах. 

Функиии системы: 

e регистрация появления вагона или цистерны; 

e выделение номерного знака; 

® распознавание символов номерного знака; 

e сохранение распознанного номера в базе данных. 

Характернстики: 

e обработка до 4 видеоканалов 320 x 240 на одном процессоре в реальном масштабе 
времени; 

® макснмально допустнмая скорость вагонов и цистерн — до 20 км/час (на подходе 
к станции): 

® вероятность распознавания — до 0,9: 

® ширина зоны контроля при съемке сбоку перпендикулярно степке вагона — 6 м: 

® допустимый угол наклона изображения номера — до 5°; 

® освещенность в зоне контроля — не менее 50 люкс. 

Система счнтывания номеров железнодорожных вагонов и цистери (phc. 7.5.18) 
также реализована на базе системы видеонаблюдения «Интеллект» фирмы ITV, 
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Рис. 7.5.18. Примеры считывания номеров железнодорожных вагонов и цнстери 


7.5.10. Интеллектуальная система видеонаблюдения. Распределенный клнент- 
серверный подход был взят за основу прн разработке снстемы нителлектуального вн- 
деонаблюдення ЗАО «ИИТ». Пренмущества подобного решення заключаются в боль- 
шей падежностн снстемы в целом н легкостн ee масштабнровання. Данное решенне 
может быть нспользовано как в случае, когда требуется постронть домашнюю CHCTE- 
му нз 2-4 камер, так н в случае снстемы с десяткамн н даже сотнямн камер в еднной 
сетн. 

Модуль вндеоаналнтнкн ннтегрнрован в базовую платформу н может нспользо- 
ваться на каждом узле системы для любого канала вндео. Настройка параметров 
работы клнеитскнх детекторов пронзводнтся удаленно, с терминала снстемы вндеона- 
блюдення. Для снтуативного аиалнза видео реализован ряд специализированных Npa- 
вил. При этом цифровое видео в реальном времени обрабатывается с учетом заданных 
правил в определенных зонах контроля, и в результате формируются соответствую- 
щим образом настроенные сигналы тревоги. Логическая цепочка может содержать 
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несколько правил и вариантов сигналов тревоги, включая варианты их внзуального 
отображения и звукового сопровождения. 

Рассмотрнм механизм реализацин правил аналнза видеоинформацин. 

Правила привязываются к источнику видеоданных (видеокамере). Основные ин- 
струмеиты указапия пространственной области действия правнл — зона и линия. 
Как показано на рис. 7.5.19, задав зону интереса, соответствующую области дороги, 
можно сразу ограничить количество событнй даже при нспользовании простейшего 
детектора двнжения. 

С помощью правнл можно решать и более сложные задачн. Например, можно счи- 
тать объекты, пересекающне выделенную зону (рис. 7.5.20) или выделенную линию, 
прнчем с учетом направления пересечення (рис. 7.5.21). В других приложениях более 
полезным может оказаться правило, осуществляющее подсчет количества движущих- 
ся объектов, находящихся в контролнруемой зоне в текущий момент (рис. 7.5.22). 


Рис. 7.5.19. Детектор движения с многоугольной зоной интереса 


Такие и подобные им правила вполне могут быть использованы как для обеспе- 
чения охранных функций, так и для решеннй других задач. Например, можно вести 
учет количества вошедших в магазин посетителей или количество прохожих, задер- 
жавшнхся перед его витриной. 

Правило учета направления движения объекта (рис. 7.5.23) позволяет решать за- 
дачу. характерную для видеонаблюдения в аэропортах, а также в городскнх райопах 
с односторонним двнжением транспорта. Правила анализа формы траектории движе- 
ния объекта (рис. 7.5.24) помогает решать такие задачи, как определение подозритель- 
ных («праздношатающихся») посетителей, определение основных путей передвнжения 
клнентов в торговом зале, отслеживаине подозрительных перемещений посетителей 
по территорин охраняемой зоны н т. п. 


ТЕХИОЛОГНН И ПРИЛОЖЕНИЯ МАШИННОГО ЗРЕННЯ 


Puc. 7.5.21. Подсчет числа объектов. пересекающих лиини ннтереса — с учетом и без учета напр 
лении движения 
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Рис. 7.5.22. Подсчет числа объектов, находяшихся в зопе интереса 


Рис. 7.5.23. Контроль направлении движении объекта 
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Большннство реализованных правнл можно сочетать и компоновать в логические 
цепочки, устанавливать сигналы тревогн на определенные события или сочетания 
событнй. Подобный подход позволяет построить ннтеллектуальную систему видео- 
наблюдения, решающую актуальные задачи с наибольшей степенью эффектизностн 
€ точкн зрения использования ресурсов н своевременности реагнровання па произо- 
шедшее событие. 


Рис. 7.5.24. Выделеине и анализ формы траекторни движения объекта 


7.5.11. "Обнаружение человека в естественной обстановке. Задача обнаруже- 
ния человека на нзображенни является объектом исследований, проводнмых в боль- 
шом количестве научных н исследовательскнх групп по всему миру. Такой интерес 
к этой задаче обусловлен шнроким спектром возможных применений, включающих в 
себя снстемы безопасности и ограничения доступа, человеко-машинный интерфейс. 
системы обеспечения безопасности на дорогах, средства обеспечения телеконферси- 
ций и вндеокомпресснн, исследования характера двнжения людей в различных ситу- 
ациях (спорт, специальная подготовка) и т. д. 

Методы решения задачн обнаружения человека можно условно разделить на 
несколько классов: 

— 2D без использования предопределенной модели человеческого тела; 

— 2D с использованием заданной модели человеческого тела; 

— 3D с использованием ннформации от нескольких источников изображения (ка- 
мер) для формировання пространственной модели сцены. 

Естественно, что эта классификацня очень условна и в конкретных реализациях 
процедур обнаружения человека могут использозаться методы, принадлежащие раз- 
личным классам. Необходимо отметить, что рассматриваемые алгоритмы н методы 
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отличаются от так называемых детекторов движения. Эти алгоритмы и методы долж- 
ны реагировать исключнтельно па факт присутствия человека в наблюдаемом кадре 
(зоне контроля) нли на проявление человеческой активности. 

Обнаружение человеческой фигуры без использования предопределенной мо- 
дели. Нанболее распространенный способ обнаружения человека на изображениях 
представляет собой анализ элементарных движений (локальных изменений B после- 
довательностн кадров) для выделения человеческой фигуры нз фона. 

Счнтается, что человеческая активность связана с выполнением большого числа 
периодических движеннй, и даже B состоянин покоя человек осуществляет спон- 
танные движения, что позволяет отличить человека (животное в общем случае) от 
фона. В литературе этот метод иногда называют методом «получения изображения 
человека без поиска элементов человеческого тела», при этом нспользуется разбие- 
ние исходного изображения на множество квадратных непересекающнхся областей 
и выделение области, занимаемой человеческой фнгурой. В каждом элементе разби- 
ения анализируются элементарные движення, и после соответствующей нормалнза- 
цин формируется вектор, описывающий движение в момент времени t. Для обнару- 
жения двнжения используют изменчивость оптического потока (рис. 7.5.25), число 
изменившихся пикселов, изменение числа границ (локальных перепадов яркости). 


Рис. 7.5.25. Обнаружение периодической активиости с использоваиием иизкоуровневых признаков 
движения 


Для систем, подобным вышеперечисленным, характерно использование специаль- 
ных классификаторов для формирования области, занимаемой человеческой фигурой, 
на основании анализа векторов движения. В качестве классификаторов используются: 

— системы вывода па базе дерева решеннй; 

— системы, использующие метод ближайшего соседа; 

— корреляционные системы и т. д. 

Другим подходом к решению задачи обнаружения человека по информации, полу- 
чаемой c 20-изображения, является анализ статических кадров. При этом в качестве 
исходной информации для выделения областей возможного нахождения человеческой 
фигуры вместо элементарных движений используются такие производные характе- 
ристики изображения, как границы, текстуры, результаты свертки изображения с 
баиками фильтров и т.д. Например, в качестве элементарных признаков использу- 
ются коэффициенты вейвлет-преобразования, полученные при обработке отдельных 
участков изображения. В процессе обучения по выборке изображений выделяется 
небольшая часть коэффициентов (наиболее общая), характеризующих целевой объ- 
ект (человеческую фигуру), с учетом допустимой изменчивости в размерах и позах. 
В качестве решающего устройства используется ЗУ М-классификатор, обучаемый по 
массиву изображений реальных сцен. На этапе поиска изображения человека исполь- 
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зуется скользящее окно переменного размера. Над частью сцены, попавшей в окно. 
выполняются операции нормализации, свертки с вейвлет-функцией и классификации 
При этом $УМ-классификатор принимает решение о присутствие заданного объектг 
(человека) в текущем окне. 


№ 


Рис. 7.5.26. Обиаружение фигуры человека по изобра- Рис.7.5.27. Результат выделеиия глав’ 
жениям спереди и сзади. Признаки — вертикальные, го ных компоиеит коитуров человеческих 
ризонтальиые и днагональиые вейвлет-коэффициеиты. фигур. представлеииых в виде B- 
Слева — результаты обнаружеиня, получеиные с исполь, сплайиа. Показаиа вариация коитуров 
зоваиием SV М-классификатора фигур по собствеииым векторам 


Еще одним направлением, задействованным при анализе статических кадров, AB- 
ляются алгоритмы, использующие статистический анализ для построения моделей 
границ или всей фигуры человека, достаточно достоверных для отделения их от 
фона. Для построения модели границ (формы) человеческой фигуры используются 
массивы изображений человеческих фигур с отмеченными на них характерными точ- 
ками. Используя методы анализа главных компонент, получают компактное описание 
выбранной системы признаков, представленное системой векторов пониженной раз- 
MepHOCTH, т.е. в исходном пространстве признаков формируется базис, в котором 
основная дисперсия направлена вдоль нескольких первых осей базиса. Представление 
модели человеческой фигуры в виде главных компонент кроме компактности обладает 
еще определенными обобщающими свойствами, позволяющими правильно классифи- 
цировать деформированные и искаженные фигуры. Пример построения обобщенной 
модели человеческой фигуры представлен на рис. 7.5.27. 

При формировании обучающего множества для метода главных компонент вместо 
набора характерных точек также используются размытые бинарные образы, получен- 
ные в результате выделения силуэтов людей на изображениях сцен. 


^ E - 
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Рис. 7.5.28. Использование метода аиализа Рис.7.5.29. Выделение человеческой фи- 
главных компоиент по миожеству изображений гуры с использованием пространственио- 
человеческих фигур (30 x 50 пикселов), пока- цветовой кластеризации 

заиы собственные векторы (0 — среднее значе. 

ние, 1, 2, и 25) 
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Для выделения человеческой фигуры Ha изображениях с заранее запомненным 
фоном или по последовательности кадров, снимаемых с фиксированной камеры, при- 
меняются алгоритмы, осуществляющие обработку изменения цвета пикселов изобра- 
жения. Пикселы группируются в соответствии с некоторой системой кластеров, орга- 
низованных в 50-пространстве, представляющем объединение цветовых (R, С, В) и 
пространственных (=, у) координат. 

Для групп кластеров на последовательных изображениях ищется наиболее до- 
стоверная пара, и с учетом пространственного объединения изменившихся пикселов, 
после пространственной фильтрации на основании модели движения выделяется об- 
ласть, соответствующая человеческой фигуре. 

Обнаружение человеческой фигуры с использованием заданной модели че- 
ловеческого тела. Алгоритмы данного типа используют априорное знание о пред- 
ставлении изображения человеческой фигуры в 20-проекции для сегментации изоб- 
ражения, выделения фигуры и отдельных частей тела. В связи с тем, что при про- 
извольных движениях возникают проблемы, связанные с искажениями информации 
из-за взаимных перекрытий, изменений ракурса и частичным 
выходом за границы кадра, многие системы ограничивают до- 
пустимую изменчивость в пределах заранее сформулирован- 
ной модели поведения человека в кадре, Предварительное вы- 
деление человеческой фигуры обычно осуществляется с по- 
мощью процедуры вычитания фона в условиях стационарной 
или медленно изменяющейся фоновой обстановки и фикси- 
рованного положения камеры. Модель человеческой фигуры 
обычно представляется в виде проволочной модели с леиточ- 
ным (рис. 7.5.30) или дисковым покрытием. 

Выделение силуэта начинается с выделения частей тела в 
последовательности — ноги, тело, голова, руки. Ноги и те- 
ло чаще всего являются наиболее стабильными элементами 
изображения и за редким исключением наименее подвижны- 
ми (или имеют ограниченный тип движения), поэтому они ЖТ 
наиболее удобны для первоначальной привязки модели тела. 

Пример использования ленточной модели для сегментации 
и выделения человеческого тела приведен на рис. 7.5.31. Мо- 
дель человеческого тела составлена из пяти -образных лент, 
туловища, системы точек связи и центров масс, и ряда струк- 
турных ограничений таких, как определение опорных элементов. В дополненне к мо- 
дели тела используется система описаний изображений специфических поз, например, 
вид человека на коленях, бегущий человек и т, д. 

В то же время могут использоваться модели описывающие характер движения 
человека во временной развертке. Ha рис. 7.5.32 представлены характеристики дви- 
жения в 30-пространстве ХҮТ, на основании которых выделяются и отслеживаются 
силуэты людей на стационарном фоне. 

Левое изображение показывает различные срезы в трехмерном ХУТ-пространстве, 
содержащие характерные образы. 

Система для обнаружения человека на изображенни «РИпаегь обнаруживает H Co- 
провождает силуэт, используя «капельную» модель тела. Каждая «капля» статистиче- 
ски описывается системой пространственных (x, у) и цветовых (У, О, У) параметров, 
имеющих нормальное распределение, и соответствует какой-либо части человеческой 
фигуры (руки, голова, ноги, рубашка, штаны). Также создается статистическая мо- 
дель сцены, в которой каждому пикселу присваивается определенная вероятность, 


Рис. 7.5.30. 20-прово- 
лочная модель фигуры с 
леиточиым покрытием 
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исходя из препположения о нормальности распределения в пространстве цветов. Мо- 
дель сцены используется для определения областей, в которых зиачения пикселов 


отличаются от ожидаемых. 


Рик 7.5.32 uU Ho, ‹ i eJ! be ‘ нм aer M T: 


Рис. 7.6.33. Обнаружение и трассировка снлуэта с помощью капельпой модели человека системой 
sPfinder» 
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Выделение и сегментация человеческого тела происходит в процессе построения 
капельной модели с использованием эвристического анализа для замещения элемен- 
тов изображения «каплями», соответствующими отдельным частям тела (рис. 7.5.33). 

Кроме 20-моделей человеческого тела многие алгоритмы обнаружения человека 
и сегментации тела используют заранее сформированную 30-модель. В отличие от 
аналогичных моделей, используемых в компьютерной графике, для обнаружения и 
сегментации человеческой фигуры используются более схематичные и упрощенные 
3D-MogenH. В качестве моделей могут быть использованы проволочные или шарнир- 
ные модели, модели составленные из цилиндров различных длин и диаметров, или 
триангулированные модели поверхности тела. 

Использование 30-моделей позволяет более точно определить позу, соответствую- 
щую данной 20-проекции. При выборе подходящей позы учитываются естественные 
ограничения, накладываемые человеческим телом на возможные положения частей 
тела. Для выбора подходящей позы используются поисковые алгоритмы, учитываю- 
щие допустимые движения при установлении связанности по последовательности кад- 
ров. В качестве условия окончания поиска принимается состояние модели, имеющее 
минимальное отличие соответствующей 20-проекции от исходного изображения. Me- 
тоды обнаружения человеческой фигуры имеют существенный недостаток, связанный 
с большими затратами вычислительных ресурсов на выбор положения, допустимой 
позы и согласования модели с исходным изображением. 

Обнаружение человеческой фигуры на стереоизображениях. Использование 
многокамерных и, в частности, бинокулярных CTepeocHCTeM для обнаружения челове- 
ческой фигуры на сложной сцене позволяет получить дополнительную информацию о 
пространственном расположении объектов на сцене и повысить точность выделения 
человеческой фигуры по сравнению 20-алгоритмами. Дополнительная информация о 
пространственной структуре сцены, во-первых, позволяет уменьшить зависимость от 
изменения освещенностн сцены и упростить анализ изображений, связанный с уче- 
том взаимного перекрытия объектов. Во-вторых, совместная обработка нзображений, 
поступающих с нескольких камер, позволяет оценить реальное соотношение разме- 
ров обнаруженных объектов и, следовательно, обеспечнть надежную классификацию. 
На рис. 7.5.35 изображена структурная схема системы стереозрения. Стереосистема 
формирует два изображения одного и того же объекта, полученные с различных то- 
чек наблюдения (камер). Оценивая разность между изображениями, полученными с 
левой н правой камер, можно построить карту разрывности, значения которой пропор- 
циональны расстоянию соответствующих точек сцены от плоскости изображения. На 
рис. 7.5.36 показана карта разрывности, сформированная из стереоизображения. Для 
определення связанности объектов карта разрывности квантуется на несколько уров- 
ней, и элементы карты, принадлежащие одному уровню и имеющие пространствен- 
ную близость, объединяются в один кластер (считается, что они прииадлежат одному 
объекту). Сегментация объектов сцены, выполненная таким образом, не зависит от 
условий освещенности, текстуры поверхности, затенений н перекрытия объектов. 

Усовершенствованием способа выделения объектов, основанного на стереозрении, 
является совместная обработка информации о движении и структуре сцены, позво- 
ляющая строить эффективные и надежные алгоритмы обиаружения подвижных объ- 
ектов, B том числе и людей. В подобных системах нспользование информации о ABH- 
жепии позволяет упростить процедуру удаления фона, которая при использованин 
только стереоинформацни требует достаточно сложных вычислений. 

Использование информации от системы бинокулярного зрения позволяет объеди- 
нить обнаруженные на изображениях области двнжения в соответствии с HX 3D- 
координатами. Кроме того, использование ннформации о характере движення поз- 
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воляет различать однородные областн изображения (имеющие одинаковые текстуры. 
цвет) по направлениям и скоростям движения. Пример работы системы обнаруже- 
ния человеческих фигур по последовательности стереокадров приведен на рис. 7.5.37. 
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Рис. 7.5.34. 30-модели человеческих фигур Рис. 7.5.35. Геомегрия стереозреиия н форми- 
«ELLEN» и «DARIU» роваиие uso6paxeHun 


Рис.7.5.36. Сегментация na основе карт разрывностей: а — изображение, получениое от левой 
камеры, 6 — карта разрывиостей. в — результат сегмеитации, г — результат обиаружения объектов 
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Рис. 7.5.37. Обнаружение движущихся людей в помещении. Слева — 2 кадра из видеотюследова- 
тельности от одной камеры, в центре — результат вычитания фона, справа — результат процедуры 
обнаружения людей 


7.5.12. *Литература для самостоятельного изучения. Задача поиска видеодан- 
ных в архиве по визуальному запросу в настоящее время является одной из важ- 
нейшнх тем при разработке цифровых систем вндеонаблюдення. Одкако поскольку 
основным приложением данной технологин является все-таки поиск нзображений в 
Интернете, мы не стали включать ее описание в состав данного курса. 

Предлагаем эту тему для самостоятельного изучения. В книге (Шапиро, Стокман) 
[49] данной тематике посвящена глава 8 «Поиск изображений на основе содержания», 
в книге (Форсайт, Понс) [44] — глава 25 «Поиск в цифровых библиотеках». 
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7.6. Биометрия 


7.6.1. Область применения: биометрия. В последнне годы во всем мире наблюда- 
ется все возрастающий интерес к методам распознавания и идентификации личности. 
Основные пути и способы решения этих задач лежат в области разработки биометрн- 
ческих систем. В биометрических системах для распознавания человека используется 
совокупность биометрических характеристик, основанных на биологических особен- 
ностях человеческого тела. В качестве таких биометрических характеристик могут 
выстугать: голос, почерк, отпечатки пальцев, геометрия кисти руки, рисунок сетчат- 
кн или радужной оболочки глаза, лицо н ДНК. 

Биометрическая защита более эффективна в сравнении с такими методами, как 
использование паролей, PIN-Konos, смарт-карт, жетонов (tokens) илн технологии РКІ 
(инфраструктура открытых ключей), поскольку биометрия позволяет идентифицнро- 
вать именно конкретного человека, а не устройство. Традиционные методы защиты не 
исключают возможности потери или кражи информации, вследствие чего она стано- 
вится доступной незаконным пользователям. Уникальный биометрический идентифи- 
катор, каковым является, например, отпечаток пальца или изображение лица, служит 
ключом, который невозможно потерять. Биометрическая система безопасности позво- 
ляет отказаться от парольной защиты либо служит для ее усиления. 

Одной из основных причин, которые существенно повысили значимость автомати- 
ческой обработкн и анализа бнометрнческой информации, явилось повышение требо- 
ваний к функциональным возможностям автоматических систем безопасности, рас- 
положенных в общественных местах (вокзалы, аэропорты, супермаркеты и т. п.), CBA- 
занные с необходимостью в реальном времени выполнять необходимые действия по 
установлению личности присутствующих на контролируемой территории людей, при- 
чем, зачастую, скрытно, то есть не только бескоитактно (дистанционно), но и без 
специального сотрудничества (специального предъявления биометрическнх призна- 
ков) со стороны идентифицируемых персон. 

В настоящее время существует множество методов биометрической аутентифнка- 
цин, которые делятся на две основные группы — статические и дннамические методы. 

Статические методы биометрической аутентифнкации основываются на физиоло- 
гической (статической) характеристике человека, то есть уникальной характеристнке, 
данной ему от рождения и неотъемлемой от него. К этой группе относятся следующие 
методы аутентификацин. 

e По отпечатку пальца. В основе этого метода лежит уникальность для каждого 
человека рисунка папиллярных узоров на пальцах. Отпечаток пальца, полученный с 
помощью специального сканера, преобразуется в цифровой код (свертку) и сравннва- 
ется с ранее введенным эталоном. Данная технология является самой распространен- 
ной по сравнению с другими методами биометрической аутентификации. 

e [To форме ладони. Данный метод построен на геометрии кисти руки. С помощью 
специального устройства, состоящего из камеры и нескольких подсвечивающнх дио- 
дов (включаясь по очереди, они дают разные проекции ладонн), строится трехмерный 
образ кисти pyKH, по которому формнруется свертка и распознается человек. 

e По расположению вен на лицевой стороне ладони. С помощь инфракрасной 
камеры считывается рисунок вен на лицевой стороне ладонн или кисти руки, полу- 
ченная картинка обрабатывается, и по схеме расположения вен формируется цифровая 
свертка. 

e По сетчатке глаза. Вернее, это способ идентификации по рисунку кровенос- 
ных сосудов глазного дна. Для того чтобы этот рисунок стал виден, человеку нужно 
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посмотреть на удаленную световую точку. при этом подсвеченное глазное дно скани- 
руется специальной камерой. 

e [To радужной оболочке глаза. Рисунок радужной оболочки глаза также является 
уникальной характеристикой человека, причем для ее сканирования достаточно пор- 
тативной камеры со специализированный программным обеспечением, позволяющим 
захватывать нзображение части лица, из которого выделяется изображение глаза. 
из которого в свою очередь выделястся рисунок радужной оболочки, по которому 
строится цифровой код для идентнфикации человека. 

• По изображению или форме лица. В данном методе идентификации строится 
двумерный или трехмерный образ лица человека. На лице выделяются контуры бро- 
вей, глаз, носа, губ ит. д., вычисляется расстояние между ними н строится не просто 
образ, а еще множество его вариантов на случаи поворота лица, наклона, изменения 
выражения. Количество образов варьируется в зависимости от целей использования 
данного способа (для аутентификацин, верификации, удаленного поиска на больших 
территориях и т. д.). 

• По термограмме лица. В основе данного способа аутентификации лежит уни- 
кальность распределения па лице артернй, снабжающих кровью кожу, которые вы- 
деляют тепло. Для получения термограммы используются спецнальные камеры ин- 
фракрасного диапазона. В отличие от предыдущего, этот метод позволяет различать 
даже близнецов. 

e По ДНК. Преимущества данного способы очевидны, однако используемые в Ha- 
стоящее время методы получения и обработки ДНК работают настолько долго, что 
такие системы используются только для специализнрованиых экспертиз. 

• Другие методы. Существуют еще такие уникальные способы — как ндентифи- 
KAUHA по подногтевому слою кожи, по объему указанных для сканирования пальцев. 
форме уха, запаху тела и т. д. 

Как видно, большинство биометрических технологий дапной группы связано с aHa- 
лизом нзображеннй н реализуется теми или иными методами компьютерного зрения. 

Динамические методы бнометрнческой аутентификации основываются на поведен- 
ческой (динамической) характеристике человека, то ссть построены на особенностях. 
характерных для подсознательных движений в процессе воспроизведения какого-либо 
действия. Методы аутентификации этой группы таковы. 

e [lo рукописному почерку. Как правило, для этого вида идентификации человека 
используется его роспись (иногда написание кодового слова). Цифровой код иден- 
тифнкации формируется в завнсимости от необходимой степени защиты и наличия 
оборудования (графический планшет, экран карманного компьютера Palm и т. д.) двух 
типов: 

— по самой роспнси, то есть для идентнфикации используется просто степень 
совпадения двух картинок; 

— по росписи н динамическим характеристикам напнсания, то есть для идентифи- 
кацни строится свертка, в которую входит информация по непосредственно подписи. 
временным характеристикам панесения росписи и статистическим характеристикам 
динамики нажима на поверхность. 

• По клавиатурному почерку. Метод в целом аналогичен вышеопнсанному, HO 
вместо росписн используется некое кодовое слово (когда для этого используется лич- 
ный пароль пользователя, такую аутентнфикацию называют двухфакториой), и не 
нужно никакого специального оборудования, кроме стандартной клавиатуры. Основ- 
ной характеристикой, по которой стронтся свертка для идентификацни, является ди- 
намнка набора кодового слова. 


7.6 БИОМЕТРИЯ 599 


e Ло голосу. Это одна из старейших технологий, в настоящее время ее развитие 
ускорнлось, так как предполагастся ее шнрокое использование в построении «ин- 
теллектуальных зданий». Существует достаточно много способов построения кода 
идентификации по голосу, как правило, это различные сочетания частотных H стати- 
стнческих характеристик голоса. 

® Другие методы. Для данной группы методов также опнсаны только самые рас- 
пространенные методы, существуют еще такие уникальные способы, как идеитифи- 
кация по движению губ при воспронзведении кодового слова, по динамике поворота 
ключе в дверном згмке и T. д. 

Краткий исторический обзор. Проблематика компьютериой биометрической 
идентификагии актнвно развивается с 1960-х годов. Можно отметить следующие 
осповные вехи этого процесса, 

e 1960-е — создано биометрическое подразделение NIST, первые попытки автома- 
тизации процесса идентификацин лнчности по следующим биометрическнм характе- 
ристикам: лнцо, голос, отпечатки, подпнсь. 

e 1970-е годы — первые автоматизированные системы верификации личности, Me- 
тоды идентификации по форме ладони н динамической подписи. 

e 1976 — первые мультибиомстрические эксперименты. 

ө 1980-е годы — значительно автоматизированные системы н первые методы HON- 
ностью азтоматнческой идентифнкации. 

С конца 1980х годов наблюдается всплеск научного и практического интереса к 
биометрической идентификации, сопровождающийся ростом числа биометрических 
методов, алгоритмов и технологий, в том числе в СССР и России. Это связано не 
столько с прикладным интересом к биометрической идентификации, сколько с раз- 
витием аппаратных средств, в первую очередь, персональных компьютеров и перифе- 
рийпых устройств для работы с изображениями и аудиосигналами. 

В России наиболее важные результаты по биометрической идептификации были 
получены в работах С.О. Новикова, В. Ю. Гудкова, О. М. Черномордика по распозна- 
ванию отпечатков пальцев, Г. А. Кухарева и А. А. Тельных по различным аспектам ли- 
цевой биометрии, А. И. Иванова н А. Ю. Малыгина по нейросетевым методам биомет- 
рической идеитификации, Л. М. Местецкого по распознаванию па основе параметров 
кисти руки, И. Н. Спиридонова в области стандартизацин и биометрической техники, 
В.И. Дымкова и И.Н. Синицына по автоматизации научных исследований в области 
биометрической идеитнфикации, С. Л. Бочкареза в области голосовой идентификации 
личности, О. С. Ушмаева по мультибиометрии. 

Сложились научные школы, занимающиеся проблематикой биометрической иден- 
тификации. Среди них следует выделить коллективы специалистов, работающих B 
институтах ИПИ РАН, ГосНИИАС, ИСА РАН, МГУ им. М.В. Ломоносова, МГТУ 
им. H. Э. Баумана, ФГУП «ПНИЭИ»; компаниях «Биолинк», «Вокорд Телеком», НПП 
«Лазерные системы», «Системы Папилон», «Сонда», «СТЭЛ», «Центр речевых TexHo- 
логий». 

Среди зарубежных исследований в областн бнометрической идентификации сле- 
дует выделить работы такнх специалистов, как P. Phillips, P. Grother, А. Jain, М. Ratha, 
P. Griffin, D. Maio, D. Maltoni, A. Masnfield, J. Wayman, К. Bowyer, M. Turk, А. Pentland, 
В. Bolle, А. Ross, J. Daugman, D. Zhang, Кагг-Апп Toh, О. Tosi, S. Pankanti, C. Soutar, 
Tieniu Tan, O.Castillo, P. Melin, J.P.Campbell, J.Garofolo, D.Reynolds, L.Flom, 
J. Kittler, P. Flynn, В. Chellappa, W. Zhao, J.-C. Junqua, J. F. Bonastre, J. Bigun, К. Brady, 
D. Burr, B. Dorizzi, S. Prabhakar, J. Conell, G. Doddington, J. Ortega-Garcia, А. Bazen, 
$. Gerez, В. Plamondon, M. Eleccion, M.Fornefett, J. Wegstein, L.Kersta, L. Harmon, 
A. Fejfar, T. Vetter, A. С. Kersta, L. D. Harmon, В. G. Sherlock, D. M. Monro, M. Kucken, 
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Существующие биометрические системы. В настоящее время на рынке предла- 
гается ряд готовых систем и техкологий биометрической идентнфикации и аутенти- 
фикацни личности. 

Например. в области распознавания лиц одними из наиболее продвинутых реше- 
ний являются следующие. 

Система ZN-Face компании ZN Vision Technologies АС сочетает в себе новейшие 
компьютерные разработки с системой контроля доступа, основанной на автоматиче- 
ском распознавании лиц. ZN-kamepa делает снимок человека, стоящего на рубеже 
контроля, и проверяет его в считанные доли секунды. Специально разработанный 
модуль оптического фильтра и функция контроля за живым лнцом предотвращает 
любую попытку обмана путем применения фотографий или масок. 

Компьютеризованиая база фотоданиых ZN-Phantomas может автоматически срав- 
нивать и идентифицировать лица. Для сравнения годится фотография, фоторобот, 
рисунок или кадр, полученный при вндеосъемке. ZN-Phantomas проводит поиск сре- 
ди сохраненных в памяти изображений, используя систему распознавания лнц, CO- 
зданную по образу работы человеческого мозга на базе технологии органического 
видения, Скорость работы системы позволяет просматривать 10 тыс изображений за 
три минуты. Система может работать со всеми 501.-базами данных, использующими 
ООВС-протокол (Oracle, Sybase SQL, DB2, Informix). 

Система FacelT компании /dentix [nc осуществляет распознавание людей при nona- 
данни нзображення лица в поле зрения вндеокамеры высокого разрешения, Разработ- 
ки фирмы финансируются госдепартаментом США. Данная система проходит апро- 
бацню в аэропортах США. В прессе появлялись сообщения, что результаты тестиро- 
вания иельзя назвать удовлетворительными, однако контракт с фирмой продолжен, и 
теперь акцент переносится на идентификацию по фотографиям. госдепартамент США 
собирается обязать гостей США иметь фото установленного образца, дабы облегчить 
распознавательным программам работу, 

Из систем, разработанных в Россин и СНГ, можно рассмотреть продукцию Фирмы 
Asia-Software. Фирма предлагает FRS SDK — комплект разработчика, предназначен- 
ный для построения информационно-поисковых систем, связанных с распознаванием 
лиц, и ряд систем идентификацни по изображениям лиц, Система базируется па алго- 
ритмах распознавания и сравнения изображений. Основой этих алгоритмов является 
модифицированный метод анализа принципиальных компонент, заключающийся в вы- 
числепии максималыю декореллированньх коэффициентов, характеризующих вход- 
ные образы человеческих лнц. На вход системы подается оцнфрованное вндеоизоб- 
ражепие. Специальные алгоритмы определяют наличие изображения лица человека, 
выделяют его, определяют точное расположение зрачков, производят позициониро- 
вание и масштабирование. После этого происходит автоматическое кодирование вы- 
деленного нзображения лица человека с целью определения основных характерных 
признаков. Размер полученного массива признаков составляет примерно 300 байт, что 
позволяет строить идентнфикациониые системы даже Hà однокристальных ЭВМ, 

Характеристики биометрических систем. Показателями надежности биометри- 
ческнх систем могут служить вероятностн ошибок первого и второго рода. Ошибки 
первого рода определяют вероятность ложного отказа (FRR, False Rejection Rate) и 
возникают при отказе в доступе легальному пользователю системы. Ошибкн же вто- 
poro рода показывают вероятность ложного допуска (FAR, False Acceptance Rate) и 
появляются при предоставлении доступа постороинему лицу, FRR и РАВ связаны об- 
ратной зависимостью. Современные биометрические системы имеют очень большой 
разброс этих характеристик. 
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Биометрическую систему также можно характеризовать уровнем равной вероят- 
ности ошнбок первого н второго рода (EER, Equal Error Rates) — точкой, в которой 
вероятность ошибки первого рода равна вероятности ошибки второго рода, На основа- 
нин ЕЕК можно делать выводы об относнтельных достоинствах и недостатках разных 
биометрических методов. Чем пиже уровень EER, тем выше качество системы, 

Еще один параметр, влияющий на выбор и установку биометрической системы, — 
пропускная способность, Она характеризует время, которое требуется человеку для 
взаимодействия с данным биометрическнм устройством, 

Сортировать и сравнивать описанные выше биометрическне методы по показаниям 
ошибок первого рода очепь сложно, так как онн сильно разнятся для одних и Tex же 
методов из-за сильной завнсимости от оборудовання, на котором они реалнзованы. 

По показателям ошнбок второго рода общая сортировка методов бнометрнческой 
аутентифнкации выглядит так (от лучшнх к худшнм): 

e ДНК; 

® радужная оболочка глаза, сетчатка глаза; 

® отпечаток пальца, термография лица, форма ладони; 

e форма лица, расположенне вен на кисти руки и ладони; 

e ПОДПИСЬ; 

® клавнатурный почерк: 

© ГОЛОС, 

Можно сделать вывод, что, с одной стороны, статнческие методы идентификацин 
существенно лучше динамических, а с другой стоооны — существенно дороже, 

Текущее состояние технологии и перспективы дальнейших разработок. В на- 
стоящий момент общее состоянне биометрическнх технологий в мире еще нельзя 
признать удовлетворительным. Скорее можно говорить о биометрии как о быстро раз- 
вивающейся области исследований и приложений, в которой еще не удалось достичь 
требуемых показателей. Целый ряд серьезных проверок, проведенных в последнее 
время, показал недостаточную надежность таких систем. 

Например, полицейское управление города Тампа, штат Флорида (США), после 
двух лет эксплуатации деинсталлировало за бесполезностью программное обеспече- 
ние опознания лиц. работавшее совместно с камерами наружного наблюдения. Сеть 
таких камер позволяла BecTH надзор за публикой в городском парке развлечений 
Айбор-сити. Предполагалось, что техника в комплекте с программой для скапирова- 
ния/опознания лиц, подсоединенной к базе из 30 тысяч известных правопарушителей 
и сбежавших из дома детей, повысит эффективность работы полиции. Однако за 
два года система не дала ни единого успешного результата. будь то автоматическое 
опознание разыскиваемых или арест подозреваемых, Программное обеспечение было 
предоставлено компанней ldentix, одним из ведущих в США поставщиков бнометри- 
ческих технологий опознания по лицу и отпечаткам пальцев, 

Известен отчет японского криптографа Цутомо Мацумото, скомпрометировавшего 
более десятка систем опознания пользователя по отпечатку пальца, Недавно анало- 
гичное обширное исследование было предпринято немецким компьютерным журналом 
«сә, Выводы экспертов однозначны: биометрические системы для потребительского 
рынка пока не достигли того уровня, когда ик можно рассматривать в качестве ре- 
альной альтернативы традиционным паролям, Так, систему опознания лиц FaceVACS- 
Logon немецкой фирмы Cognitec удается ввести в заблуждение, просто предъявив 
фотографию зарегистрироваииого пользователя, Для обмана более изощренного ПО, 
аналнзирующего характерные признаки живого человека (мимнческие движения JIH- 
ца) может быть успешно применен экран ноутбука, на котором демонстрируется вн- 
деоклип с записью лица, Несколько сложнее обмануть снстему Authenticam BM- 
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ЕТІ00 фирмы Panasonic для опознания радужной оболочки глаза, поскольку здесь 
инфракрасные датчики реагируют не только на характерный узор нзображения ра- 
дужки, но и на иную глубину расположения зрачка. Однако. если проделать неболь- 
шое отверстие на месте зрачка в фотоснимке глаза, куда при опознанин заглядывает 
другой человек, систему удается обмануть. Что же касастся систем опознания пользо- 
вателя по отпечатку пальца с помощью емкостного сенсора на мышке или клавиатуре, 
то здесь самым распространенным способом обмана является повторное «оживление» 
уже нмеющегося отпечатка, оставленного зарегистрированным пользователем. Для 
«реанимацин» остаточного отпечатка иногда бывает достаточно просто подышать на 
сенсор, либо приложнть к нему тонкий полиэтиленовый пакет, наполненный водой. 
Подобные трюки, в частности, весьма удачно опробованы на мышках ID Mouse фнр- 
мы Siemens, оснащенных емкостным сенсором FingerTIP производства Infineon. Ha- 
конец, «искусственный палец», отлитый в парафиновой форме из силикона, позволнл 
исследователям одолеть все шесть протестированных дактилоскопнческих систем. 

Однако, несмотря на общую негативную оценку современного состояния биомет- 
рических систем идентификации личности, во всем мире наблюдается тенденция к 
развитию исследований и разработок в области биометрии, При этом одной из ос- 
новных тенденций последнего времени является постепенный перенос приоритетов с 
контактных на бесконтактные методы биометрического распознавания, Причиной это- 
го явилось повышение требований к функцнональным возможностям автоматнческих 
систем безопасности, расположенных в общественных местах (вокзалы, аэропорты, 
супермаркеты и т, п.), связанные с необходимостью в реальном времени выполнять 
необходимые действия по установлению личности присутствующих на контролируе- 
мой территории людей, причем, зачастую, скрытно, в сложных условиях, в группе н 
в толпе, Созданию таких биометрическнх систем нового поколения препятствуют ряд 
специфнческих проблем, пока еще не имеющих адекватного решения, 

Первая группа проблем связана с тем, что системы скрытного наблюдения с це- 
лью обеспечения безопасности должны работать в условиях естественного поведе- 
ния человека, не предъявляющего специально свое лицо и не произносящего заранее 
известных ключевых фраз. В этом случае еще до решения задачи распознавания 
необходимо решить задачу обнаружения (определения местоположення, выделения 
человека в группе), да и сама задача распознавання лица и голоса в неконтролируе- 
мых условиях становится существенно сложнее. Вторая группа существующих здесь 
проблем связана с тем, что в случае задачи обеспечення безопасности (в отличие от 
задачи обеспечения контроля доступа) нет возможностн опереться на сотрудннчество 
ндентифицируемой персоны даже на этапе обучения. Поэтому для обучения приходнт- 
ся использовать имеющиеся фрагментарные и разнородные аудио- и видеоматериалы 
самого различного качества и пронсхождения. Это еще более усложняет задачу обу- 
чения биометрической системы. Наконец, третья группа проблем связана с тем, что 
получаемые (с учетом перечнсленных проблем) вероятности правильного распозна- 
вания и ложного обнаружения заданной персоны в естественной обстановке только 
по лицу илн только по голосу оказываются существенно ниже показателей, требуе- 
мых для удовлетворительного функционирования ответственных систем обеспечения 
безопасности и контроля доступа. С этим связана необходимость использовать ком- 
плексирование результатов биометрнческого распознавания, полученного от разных 
источннков информации. 

Именно с решением указанных проблем могут быть связаны существенные про- 
рывы в области биометрическнх технологий в ближайшие годы, 

Биометрия в широком и узком смысле. Такнм образом, бнометрнческие техно- 
логий идентификацин представляют собой быстро развнвающееся научно-техническое 
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направление, в результатах которого остро нуждаются такие области применения, как 
системы охраны и контроля доступа. системы паспортного и визового коитроля, систе- 
мы прелупреждения преступлений и идентификации преступников, системы контроля 
доступа, системы учета и сбора статистики посетителей, системы идентификации уда- 
ленных пользователей и пользователей интернета, верификации кредитных карточек, 
кримниалистической экспертизы, контроля времени посещения на предприятиях и 
T.A. 

Помимо описанных биометрических технологий аутентификации, область «биомет- 
рии в широком смысле» включает также ряд приложений, связанных с выделением 
и измерением различных биологических характеристик человеческого тела, жестов. 
движений и т. п., предназначенных не для персональной идентификации, а для ис- 
пользования B сгортивных, медицинских, телекоммуникационных, развлекательных 
и других целях, 


7.6.2. «Выделение и распознавание лиц. Задача выделения лица человека B 
естественной или искусственной обстановке и последующей идентификации всегда 
находилась в ряду самых приоритетных задач для исследователей, работающих в 
областн систем машинного зрения и искусственного интеллекта. Тем не менее, мно- 
жество исследований, проводящихся в ведущих научных центрах всего мира в те- 
чение нескольких десятилетий, так н не привело к созданию реально работающих 
систем компьютерного зрения, способных обнаруживать и распознавать человека B 
любых условиях. Несмотря на близость задач и методов, используемых при разра- 
ботке альтеркативных систем биометрической идентификацни человека таких, как 
идентификация по отпечатку пальца нли по изображению радужной оболочки, систе- 
мы идентификации по изображению лица существенно уступают вышеперечисленным 
системам, 

Серьезной проблемой, стоящей перед системами компьютерного зрения, является 
большая изменчивость визуальных образов, связанная с изменениями освещенности, 
окраски, масштабов, ракурсов наблюдения, Кроме того, люди имеют привычку ходнть 
по улицам и в помещении одетыми, что приводит к существенной изменчивости изоб- 
ражений одного и того же человека. Однако наиболее сложной задачей компьютерного 
зреиия является проблема устранения неоднозначности, возникающей при проектиро- 
вании трехмерных объектов реального мира на плоские изображения. Цвет и яркость 
отдельных пикселов на изображении также зависит от большого количества трудно 
прогнозируемых факторов. В число этих факторов входят: 

® число и расположение источников света; 

ө цвет н интенсивность излучения; 

e тени или отражение от окружающих объектов. 

Задача обнаружения объектов на изображении осложняется также огромным объ- 
емом данных, содержащихся в изображении. Изображение может содержать тысячи 
пикселов, каждый из которых может иметь важное значение. Полное использова- 
ние информации, содержащейся в изображении, требует анализа каждого пиксела на 
принадлежность его объекту или фону с учетом возможной изменчивости объектов, 
Такой анализ может потребовать высоких затрат в требуемой памяти и производи- 
тельности компьютера. 

Решение этой проблемы лежит в правильном выборе описания объектов, для обна- 
ружения и распознавания которых создается система, Описание объекта должно его 
учитывать наиболее характерные особениости и быть достаточно представительным, 
чтобы отличать данный объект от остальных элементов окружающей сцены, Чтобы 
избежать субъективности при выборе нужного описания, можно использовать методы 
автоматического выбора подходящих характеристик объекта. которые реализуются в 
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генетических алгоритмах и при обучении искусственных нейронных сетей. В то же 
время существует ряд параметров в описании объекта, которые в настоящее время 
должен выбрать исследователь, разрабатывающий систему обнаруження и распозна- 
вания. К такому выбору относятся: 

e выбор между 20 и 30-представленнем сцены и объекта. Алгоритмы, использую- 
щие 2)0-представление, обычно более простые, чем ЗО-алгоритмы, но в то же время 
требуют большого числа разлнчных описаний, соответствующих представленню объ- 
екта в различных условиях наблюдения; 

® выбор между описанием объекта как единого целого или как системы, состоящей 
из некоторого множества взаимосвязанных элементов; 

® выбор между снстемой признаков, основывающихся на геометрнческих или иных 
опнсывающих специфику объекта характернстиках. 

В самом общем случае алгоритм решення задачи обнаружения и идентификации 
человека по нзображению его лица состоит из следующих очевидных шагов: 

® обнаружение факта присутствия человека на анализнруемой сцене; 

® выделение фигуры человека; 

® выделение головы; 

® определение ракурса наблюдения головы (анфас, профиль); 

e выделение лица; 

® сравненне с эталонамн и идентификация. 

В зависимости от конкретных условий структура и реализация отдельных шагов 
алгоритма могут различаться. В наиболее сложном случае, при использовании си- 
стемы обнаружения и ндентификации человека по изображению его лица в сильно 
изменяющейся обстановке, с большим потоком входных данных (работё на городских 
улицах с интенсивным движением, в метро, аэропортах и т. д.), требуется исполь- 
зование максимальио доступиой информации для достижения удовлетворительных 
результатов работы алгоритма. Алгоритм должен уметь эффективно отсекать CTATH- 
ческие и медленно изменяющиеся элементы сцены, работать в различных услови- 
ях освещенности, опознавать фигуру человека под различными ракурсами, отслежи- 
вать передвижение множества людей и автоматически выбирать момент, подходящий 
для выполнения идентификацни данного человека (например, когда можно получить 
фронтальное изображение лица с достаточным разрешением). Для обеспечения та- 
ких возможностей алгоритма необходима определенная аппаратурная насыщенность 
системы. включающая многокамерный обзор и анализ сцены с возможностью выде- 
ления 30-структуры сцены, скоростной ввод видеопотока для фнльтрации элемеитов 
сцены по параметрам движения, нспользование цвета для выделения элементов CILE- 
ны. Кроме того нужны камеры с высоким разрешением и хорошей оптикой для обес- 
печения возможно большей дальности достоверной идентнфикации. В более простых 
случаях, при статичной сцене и ограниченном потоке событий (появлений людей), воз- 
можно использование более простой структуры аппаратного обеспечения и алгоритма. 
например, стереопары или одной камеры и зараиее подготовленной модели сцены мо- 
жет быть достаточно для достоверного определения факта нахождения человека в 
зоне контроля, выделения его фигуры и идентификации. Задача определения факта 
присутствия человека па сцене, требует от алгоритма определенного уровня иител- 
лекта. Это не должна быть система, реагирующая просто на факт нзменения сцены. 
Алгоритм обнаружения человека не должен давать ложные тревоги при изменениях 
освещенности, движении теней от статических объектов, появлении в зоне контро- 
ля животных и т. д. В случае, когда это необходимо, появляется проблема создания 
адекватного описания сцены. Это опнсание может представлять трехмерную модель 
сцены, вероятностную модель распределения цветов нли яркостей элементов сцены 
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или систему признаков, отличающую элементы сцены от объектов распознавания (в 
нашем случае — человеческих фигур). Отношения между элементами сцены, счнта- 
ющимися фоном, или элементам переднего плана могут изменяться. Та же фигура 
человека, если ее изображение меньше некоторого порогового значения, определяе- 
мого разрешением оптической системы, может быть отнесена к элементам фона, так 
как ее анализ является непродуктивным для выполнения основной задачи — иденти- 
фикации человека. 

Выбор алгоритма, используемого для идентификации человека по изображению 
его лица, также зависит от конкретных условий его применения. Например, с зада- 
чей распознавания в строго ограниченном коллективе легко справляется многослой- 
ная нейронная сеть. В то же время задача обнаружения конкретного человека в толпе 
(с неопределенным составом) требуст применения изощренных методов для сниже- 
ния уровня ложных тревог. Скорее всего, в этом случае потребуется многоуровневая 
система, содержащая множество анализаторов, работающих в разных признаковых 
пространствах, с принятием решения методом голосования. На начальных этапах pa- 
боты система идентификации должна отсекать заведомо неподходящих кандидатов и 
использовать оставшееся множество кандидатов для принятия окончательного реше- 
ния об идентификации. 

Ниже представлен обзор по существующим методам обнаружения и идентифи- 
кации человека по изображению его лица. В обзор включались только те методы, 
которые, по мнению авторов, наиболее широко используются в современных алго- 
ритмах обнаружения человека и его персональной идентификации по изображениям 
лица в естественной обстановке [378|- [388]. 

При всем многообразии различных алгоритмов и методов распознавания изобра- 
жений, типичный метод распознавания состоит из трех основных компонент; 

1) преобразование исходного изображения в стандартное представление; 

2) выделение ключевых характеристик; 

3) механизм классификации (моделирования): кластерная модель, метрика, Heñ- 
ронная сеть н т. п. 

Кроме этого, построенне метода распознавания опирается на априорную инфор- 
мацию о предметной области (в дапном случае — характеристики лица человека) и 
корректируется экспериментальной информацией, появляющейся по ходу разработки 
метода. 

Метод главных компонент. Метод главных компонент (Principal Component 
Analysis, РСА) применяется для сжатия информацни без существенных потерь инфор- 
мативности. Он состоит в липейном ортогональном преобразовании входного вектора 
x размерности AV в выходной вектор у размерности M, N > M. При этом Komno- 
ненты вектора у являются некоррелироваиными и, следовательно, общая дисперсия 
после преобразования остается неизменной. Матрица Х состоит из всех примеров 
изображений обучающего набора. Решив уравнение А. = Y, получаем матрицу 
собственных векторов Ф, где 5; — ковариационная матрица для x, а Л. — диагональ- 
ная матрица собственных чисел. Выбрав нз Ф подматрицу Фм, сорта гетвуюшуЮ 
М наибольшим собственным числам, получим, что преобразование у = VIX, где 
X = х — X — нормализованный вектор с нулевым математическим ожиданием, харак- 
теризует большую часть обіцей дисперсии и отражает наиболее существенные изме- 
нения х. Выбор первых № главных компонент разбивает векторное пространство на 


главное (собственное) пространство /^ = [$; ys содержащее главные компоненты, и 


его ортогональное дополнение P = {Ф}, pı В качестве индикаторов принадлеж- 
ности в методе главных компонент используют: 
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DIFS — distance іп feature space, расстояние от образа анализируемого изображе- 
ния в собственном пространстве, до эталонного образа; 

DFFS — distance from feature space, расстояние от представления анализируемого 
изображения в пространстве наблюдения до проекции эталона в собственном про- 
странстве. 


Рис. 7.6.1. Пример изображений собствениых векторов (собствениые лица) 


Применение для задачи распознавания человека по изображению лица имеет сле- 
дующий внд. Входные векторы представляют собой отцентрированные и приведен- 
ные к единому масштабу изображения лиц. Собственные векторы, вычисленные для 
всего набора изображений лиц, называются собственными лицами (eigenfaces). Ме- 
тод главных компонент в применении к изображениям лиц также называют методом 
собственных лиц (рис. 7.6.1). С помощью вычисленных ранее матриц входное изоб- 
ражение разлагается па набор линейных коэффициентов. называемых главиыми ком- 
понентами. Сумма № первых главиых компонент, умноженных на соответствующие 
собственные векторы, является апироксимацней изображения порядка N (рис. 7.6.2). 

Для каждого изображения лица вычисляются его главные 
компоненты. Обычно берется от 5 до 200 главпых компонент. 
Остальные компоненты кодируют мелкие различия между ли- 
цами и шум. Процесс распознаваиия заключается в сравнении 
главных компонент неизвестного изображения с компонента- 
Е ми всех остальных изображений. Для этого обычио применяют 
‘какую-либо метрнку (простейший случай — Евклидово paccro- 
яние). Дополнительное повышение надежности достигается за 
счет дополнительного применения анализа главных компонент к 

отдельным участкам лица таким, как глаза, HOC, рот. 
Рис.7.6.2. Нормали- Также метод главных компонент применяется для обнару- 
зованиое изображенне ЖеНия лица па изображении. Для лиц значения компонент в 
лица (а) и его pekon- СОбствениом пространстве имеют большие значения, а в допол- 
струкцин по 85 raas-  HCHHH собственного пространства — близки к нулю. По этому 
ным компонентам (6) Факту можно обнаружить, является ли входное изображение ли- 
цом. Для этого проверяется величина ошибки реконструкции: 
чем больше ошибка, тем больше вероятиость, «то это не лицо. 
. При наличии в наборе изображений лиц вариаций таких, как раса, пол, эмоции, осве- 
щение, будут появляться компоненты, величина которых в основиом определяется 
этими факторами. Поэтому по значениям соответствующих главных компонент MOX- 
по определить, например, расу или пол человека. Основные недостатки РСА таковы. 
Метод собственных лиц требует для своего применения идеализироваиных условий 
таких, как единые параметры освещенности, нейтральное выражение лица, отсут- 
ствие помех вроде очков и бород. При несоблюдении этих условий главные компонеи- 
ты не будут отражать межклассовые вариации. Например, при различных условиях 
освещенности метод собственных лиц практически неприменим, поскольку первые 
главные компояепты преимущественно отражают изменения освещения, и сравнение 

выдает изображения, имеющие похожий уровень освещенности. 
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Вычисление набора собственных векторов отличается высокой трудоемкостью, 
Один из способов — это свертка изображений по строкам и столбцам; в такой форме 
представление изображения имеет на порядок меньший размер, вычисления и распо- 
знавание происходит быстрее, но восстановить исходное изображение уже невозмож- 
HO. 

Линейный дискриминантный анализ. Линейный дискриминантный анализ (ли- 
нейный дискриминант Фишера Linear Discriminant Analysis, LDA) использует такую 
проекцию пространства изображений на пространство признаков, которая миними- 
зирует внутриклассовое и максимизирует межклассовое расстояние в пространстве 
признаков. В этих методах предполагается, что классы линейно разделимы. 

Матрица W для проецирования пространства изображения на пространство при- 
знаков выбирается из следующего условия: 


T 
Wop = arg TLLA 

W W SWW 
где Sg — матрица межклассовой дисперсии, Sw — матрица виутриклассовой диспер- 
CHH. 

Может существовать до c — 1 векторов составляющих базис пространства призна- 
ков, где с — общее число классов. С помощью этих векторов пространство изображе- 
ний переводится в пространство признаков. 

Поскольку работа непосредственно с матрицей Sw € /0"х" затруднительна из-за 
ее размерности, используется предварительное уменьшение размерности с помощью 
метода главных компонент, и затем вычисления производятся в пространстве меньшей 
размерности: 


АВЕ 
WWE Sy Wy, W’ 


Wu = arg max 


где Wy, — матрица для проецнровання в пространство меньшей размерности (про- 
странство главных компонент). 

Обычно тренировочный набор содержнт нзображення лнц прн несколькнх базо- 
вых условиях освещенности, на основе которых прн помощн лннейных комбинаций 
можно получить любые другие условия освещенностн. Этот метод дает высокую точ- 
ность распознавання (около 96%) для шнрокого днапазона условий освещенностн, 
разлнчных выражений лица н наличня нлн отсутствня очков. Однако остаются невы- 
ясненными вопросы, применнм ли этот метод для понска в больших базах данных, 
может лн метод работать, когда в треннровочной выборке для некоторых лнц нмеется 
нзображенне только B OAHHX условнях освещенности. Для задачн детектнроваиня NH- 
ua с помощью [.ОА-классы лнц н «He лнц» разбивают па подклассы. Вышеопнсанный 
метод основывается на предположеннн о лннейной разделнмостн классов в простран- 
стве нзображеннй. В общем случае такое предположенне несправедлнво. Ииструмент 
для построения сложных разделяющих поверхностей предлагают нейросетевые мето- 
ды. 

Синтез объектов линейных классов. Данный метод позволяет сннтезнровать 
новые нзображення объекта (н в частностн, нзображення лица) для разных ракур- 
сов. Имеется треннровочный набор нзображеннй лнц н только одно нзображенне 
нового объекта в определенном ракурсе. Тренировочный набор состоит из нзобра- 
жеинй объектов того же класса (класс лнц в данном случае), что н новый объект, 
н включает в себя нзображення разлнчных лнц, прнчем для каждого лнца нмеют- 
ся ero нзображення в шнроком днапазоне ракурсов. Для нового объекта, нмеющего 
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нзображенне X^ в ракурсе A, осуществляется лннейное разложенне на нзображення 
объектов нз треннровочного набора в TOM же ракурсе, с вычнсленнем коэффнцнентов 
ai: X^ = УМ ou Xf, где q — колнчество объектов в треннровочном наборе. Синтез 
нзображення XP в новом ракурсе D для нового объекта осуществляется сложени- 
eM нзображеннй нз треннровочного набора в ракурсе В с темн же коэффнциентами; 
ХВ = УУ aou XP. Такнм образом, метод позволяет синтезнровать изображення HOBO- 
го объекта в разлнчных ракурсах по нзображенню в одном ракурсе без прнвлечення 
сложных трехмерных моделей. Данный метод является перспектнвным для синте- 
за нзображеннй в новых ракурсах без привлечення сложных трехмерных моделей. 
однако вопрос о качестве н колнчестве прнмеров в треннровочном наборе остается 
открытым. 

Гибкие контурные модели лица. В данных методах распознаванне пронзводится 
на основе сравнення контуров лнца. Контуры обычно нзвлекаются для лнинй головы, 
ушей, губ, носа. бровей н глаз. Контуры представлены ключевымн позицнямн, между 
которыми положение точек, прннадлежащих контуру, вычисляются интерполнрова- 
нием. Для локалнзацнн контуров в различных методах нсгюльзуется как апрнорная 
ннформацня, так н ннформация, полученная в результате аналнза треннровочного на- 
бора. Обычно ключевые точки размещаются вручную на наборе треннровочиых изоб- 
раженнй. Прн понске контуров нового лнца используется метод снмуляцнн отжнга 
с целевой функцней нз двух составляющнх. Для первой нз ннх нщется макснмум 
прн соответствин ннтенснвностей пикселов, нзвлечеиных на перпендикулярной кон- 
туру лнннн, аналогнчиым пнкселам H3 треннровочной выборкн, для второй — при 
совпаденин контура с формой контуров треннровочных прнмеров. Такнм образом. 
нзвлекается контур черт лнца. Для сравнення нзображеннй нспользуются значення 
главных компонент, вычнсленные на наборе векторов, представляющих собой koop- 
дннаты ключевых точек. Главной задачей прн распознаванин по контурам является 
правнльное выделенне этих контуров. В общем внде эта задача по сложностн срав- 
ннма непосредственно с распознаваннем нзображеннй. 

Сравнение эластичных графов. В этом методе (Elastic Bunch Graph Matching) 
лнцо представляется в виде графа, вершнны которого расположены на ключевых точ- 
ках лица такнх, как контуры головы, губ, носы, H HX крайних точках. Каждая грань 
помечена расстояниями между ее вершннами. В каждой такой точке вычнеляются 
коэффнцненты разложення по функцням Габора для NATH разлнчных частот н восьмн 
орнентацнй. Набор такнх коэффнциентов J = {.7;} называется джетом (jet). Axe- 
ты характернзуют локальные областн нзображеннй н служат для двух целей: во- 
первых, для нахождення точек соответствня в заданной областн на двух разлнчных 
нзображеннях; во-вторых — для сравнення двух соответствующнх областей разлнч- 
ных нзображеннй, Каждый коэффнцнент Jj = а; exp(iq;) для точек нз одной областн 
разлнчных нзображеинй характернзуется амплнтудой а;, которая медленно меняется 
с нзмененнем положення точкн, H фазой ф;, которая вращается со скоростью, про- 
порцнональной частоте волнового вектора базнсной функцни. Поэтому в простейшем 
случае для понска на новом нзображеннн точкн с аналогнчными характернстнкамн в 
функинн подобня фазу не учнтывают: 


jeja; 
ү; а? 


Функцня подобня с одннм джетом в фнкснрованной познцинн и другнм с переменной 
познцней является достаточно гладкой, для того чтобы получнть быструю н HaAex- 
пую сходнмость прн понске с прнмененнем простейшнх методов такнх, как днффузня 


S,(,J) = 
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нлн граднентный спуск. Более совершенные функцин подобня привлекают ннформа- 
цню о фазе. Для разлнчных ракурсов соответствующне ключевые точки отмечаются 
вручную на треннровочном наборе. Кроме того, чтобы для одного н того же лн- 
ца представнть различные вариацин его нзображення в одном н том же графе, для 
каждой точкн нспользуются несколько джетов, каждый нз которых может соответ- 
ствовать различным локальным характернстнкам данной точки, например, открытому 
и закрытому глазу. Процесс распознавання нензвестного лнца состонт в сравненнн 
графа нзображення лнца С! со всемн остальнымн графами нз набора В прн помощн 
фуикцнн подобня 
1d 22 1 1 Bm À (Axi Z AxDy 
$p(G*.B) = y, 5 такво) Ei quoc 

Левая сумма характернзует подобне джетов, вычнсленное с прнменением фазочув- 
ствительной фуикцни, правая — топографнческое соответствне, которое пропорцно- 
нально квадрату разностн расстояннй между соответствующимн вершннамн сравнн- 
ваемых нзображеннй, № — колнчество вершнн, E — количество грапей, À — коэф- 
фнцнент отпоснтельной важностн топографнческой ннформацнн. 

В представленном выше внде метод способен достаточно надежно распознавать 
прн нзмененнях ракурса до 20°; прн большнх углах точность распознавання резко 
уменьшается, функцня подобня оказывается более чувствнтельной к ракурсу, чем 
к межклассовым разлнчням. Дальиейшее развнтне метода заключается в нзвлеченнн 
коэффнцнентов важностн на основе анализа обучающей выборкн. Для каждого джета 
снмплекс-методом вычнсляется коэффнциент важности, который затем нспользуется 
в фуикцнн подобня. Коэффнциенты важностн вычнсляются нз условня макснмнза- 
UHH функцнн подобня для одного н того же лнца и миннмнзацнн — для разлнчных 
лнц. Существуют также более раннне разновндностн этого метода, которые не HC- 
пользуют изначально определенные ключевые точки н структуры графа. Однн нз ннх 
нспользуют для сравнення решеткн джетов, наложенные на изображение, рнс. 7.6.3. 
В пензвестном нзображеннн отыскнваются точки соответствня, н затем по найденным 
точкам стронтся нскаженная решетка н нзмеряется мера ее нскаження для опреде- 
лення нанболее похожего нзображення. В доугих методах точкн нзвлечения джетов 
нзначально образуют решетку, а затем нанменее прнгодные для распознавання точкн 
отсенваются в процессе обучення. 


Рис.7.6.3. Наложенная на изображение эластичная решетка и ee искаженная версия 


Методы, основанные на геометрических характеристиках лица. Однн нз са- 
мых первых методов — это аналнз геометрическнх характеристик лнца. Изиачально 
он прнменялся в крнмнналнстнке н был там детально разработан. Потом появнлнсь 
компьютерные реализацнн этого метода. Суть его заключается в выделеннн пабора 
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ключевых точек (нлн областей) лнца н последующем выделенин набора признаков. 
Каждый прнзнак является лнбо расстояннем между ключевымн точкамн, лнбо OTHO- 
шением такнх расстояннй. В отличне от метода сравнення эластнчных графов, здесь 
расстояння выбнраются не как дугн графов. Наборы нанболее ннформатнвных прн- 
знаков выделяются экспернментально. 

Ключевымн точками могут быть уголкн глаз, губ, кончнк носа, центр глаза н т, п. 
puc. 7.6.4. В качестве ключевых областей могут служнть прямоугольные областн, 
. включающие в себя: глаза, HOC, рот, 

В процессе распознавання сравннваются прнзнакн неизвестного лнца с прнзнака: 
MH, хранящнмнся в базе. Задача нахождення ключевых точек прнблнжается к трудо- 
емкостн непосредственно расиознавання, н правнльное нахожденне ключевых точек 
на нзображеннн во многом определяет успех распознавання. Поэтому нзображенне 
лнца человека должно быть без помех, мешающнх процессу понска ключевых точек. 
К таким помехам относят очкн, бороды, украшения, элементы прнческн и мгкняжа. 
Освещение желательно равномерное н одннаковое для всех нзображеннй. Кроме то- 
го, нзображенне лнца должно нметь фронтальный ракурс, возможно, с небольшнмн 
отклоненнямн. Выраженне лнца должно быть нейтральным. Это связако с тем, что в 
. большннстве методов нет моделн учета такнх нзмененнй. 

Такнм образом, данный метод предъявляет достаточно строгне требовання к усло- 
вням съемкн н нуждается в надежном механнзме нахождення ключевых точек для 
общего случая. Кроме того, требуется прнмененне более совершенных методов клас- 
снфнкацнн нлн построення моделн нзмененнй. В общем случае этот метод не является 
самым оптнмальшым, однако для некоторых спецнфнческнх задач все же перспектн- 
вен. К такнм задачам можно отнестн документный контроль, когда требуется срав- 
HHTb нзображенне лнца, полученного B текущнй момент, с фотографней в документе. 
Прн этом другнх нзображеннй этого человека He нмеется, H, следовательно, меха- 
ннзмы классифнкацин, основанные на аналнзе треннровочного набора, недоступны. 


а 6 


Рис. 7.6.4. Идептификационные точки и расстояния: а — используемые при криминалистической 
экспертизе; б — нанболес Часто применяемые при построении автоматизнрованных систем иденти: 
фикацин 


Сравнение шаблонов. Сравненне шаблонов (Template Matching) заключается в 
выделенни областей лнца на нзображеннн рнс. 7.6.5, и последующем сравненнн этнх 
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областей для двух разлнчных изображеннй. Каждая совпавшая область увелнчнвает 
меру сходства нзображеннй. Это также один из нсторнческн первых методов рас- 
познавання человека по нзображенню лнца. Для сравнення областей нспользуются 
простейшне алгорнтмы вроде попнксельного сравнення. 

Недостаток этого метода заключается в том, что он требует много ресурсов как для 
хранення участков, так н для нх сравнення. Ввнду того, что нспользуется простей- 
шнй алгорнтм сравнення, изображення должны быть сняты в строго устаповленных 
условнях: не допускается заметных измененнй ракурса, освещення, эмоциопального 
выраження н пр. 


Рис. 7.6.5. Области, входящие в шаблон лица . 


Скрытые Марковские модели. Марковскне моделн являются мощным средством 
моделирования разлнчных процессов н распознавання образов. По своей природе Мар- 
ковские моделн позволяют учнтывать непосредственно пространственно-временные 
характернстнкн снгналов, и поэтому получнлн шнрокое ирнмененне B распознаваннн 
речн, а в последнее время — нзображеннй (в частности, нзображеннй лнц). Kax- 
дая модель А = (А,В, л), представляет собой набор N состояннй 5  (51,55,..., Sw). 
между которымн возможны переходы. В каждый момент временн снстема находнтся в 
строго определенном состояннн. В нанболее распространенных Марковских моделях 
первого порядка полагается, что следующее состояние завнснт только от текущего 
состояння. Прн переходе в каждое состояние генернруется наблюдаемый снмвол, KO- 
торый соответствует физнческому сигналу с выхода моделнруемой снстемы. Набор 
CHMBOJOB для каждого состояння V = (u,v2,..., vy ), колнчество снмволов M. Вы: 
ход, генернруемый моделью, может быть так же иепрерывным. Существуют так же 
модели, в которых набор символов для всех состояннй одинаков. Снмвол в состоянни 
4 = 8j в момент временн £ генернруется с вероятностью by = Р(ик|9; = 5;). Набор 
всех такнх вероятностей составляет матрнцу В = (bj). 

Матрнца А = ||а;;|| определяет вероятность перехода нз одного состояння в Apy- 
гое: аз; = P(qi+1 = Sile = S1), 1 < 4,3 М. Считается, что А не завнсит от временн. 
Еслн из каждого состояння можио достнчь любого другого за однн переход, то все 
Qj; > 0, н модель называется эргоднческой. Модель нмеет вероятность начальных CO- 
стояний 7t = (7t), где п; = P(qi = S;). Обычно в реальных процессах последователь- 
ность состояинй является скрытой от наблюдення н остается неизвестной, а нзвестен 
только выход снстемы, последовательность наблюдаемых снмволов О = Oi Os ...Orm., 
где каждое наблюденне О, — снмвол нз И, и T — чнсло наблюденнй в последователь- 
ностн. Поэтому такие моделн называют скрытыми Марковскнмн моделямн (Hidden 
Markov Modeis, НММ). 

Модель А = (А,В, т) с настроенными параметрамн может быть нспользована для 
генерирования последовательностн наблюденнй. Для этого случайно. в соответствни 
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C начальиымн вероятностямн 7t выбнрается начальное состоянне, затем на каждом 
шаге вероятиость В нспользуется для геиерацни наблюдаемого символа, а вероятность 
А — для выбора следующего состояння. Вероятиость P генернроваиня моделью À 
последовательности состояний О: 


" 
P(0|Q,3) = [T5,.(0) 


t-i 


где Q = qq2...qr — последовательность состояний. Предполагается, uro наблюдения 
статистически независимы. 

В распознавании образов скрытые Марковские модели применяются так. Каждо- 
му классу i соответствует своя модель Л;. Распознаваемый образ (речевой сигнал. 
изображение и т. д.) представляется в виде последовательности наблюдений О. За- 
тем для каждой модели А; вычисляется вероятность того, что эта последовательность 
могла быть сгенерирована именно этой моделью. Модель А;, получившая наибольшую 
вероятность, считается наиболее подходящей, и образ относят к классу 7. 

В связи с этим появляются несколько вопросов, называемых тремя основными 
задачами скрытых Марковских моделей. 

1) Имея последовательность наблюдений О = О: О2...От и настроенную модель 
Л = (А,В. л), как оценить вероятность Р(О|А) генерации этой моделью данной nocne- 
довательиости наблюдений? Эта задача иазывается задачей распознавания. 

2) Имея последовательность наблюдений О = O105...Oq и пастроенную модель 
Л = (А,В, л), как подобрать последовательность состояний Q = 4142...9т, чтобы она 
была оптимальной (в соответствии с некоторым критерием, аналитически эта задача 
неразрешима)? Другими словами, это задача объяснения. Она нужиа для последую- 
щей коррекции параметров модели. 

3) Каким образом корректировать параметры модели À, для того чтобы максимизи: 
ровать P(O|A)? То есть как сделать так, чтобы модель больше соответствовала своему 
классу, одним из образов которого является данная последовательность наблюдений 
(или несколько различных последовательностей)? Это задача обучения. 

Первая задача имеет точное аналитическое решение, называемое процедурой 
прямого-обратного прохода. Последующие две задачи не имеют точного аналити- 
ческого решения. Для решения второй задачи используется алгоритм Витерби, для 
третей — алгоритм Баума-Вельча. Оба этих метода являются разновидностями гра- 
диентного спуска и решаются оптимизационными методами. 


Рис. 7.6.6. Липейная Марковская модель 


Для того чтобы сократить вычисления, в распознавании речи используются линей- 
ные модели рис. 7.6.6. В таких моделях каждое состояние имеет только одно после. 
дующее, так же переход возможен обратно в TO же состояние. Такие модели учиты- 
вают временные характеристики речевого сигиала: определенный порядок следования 
участков сигнала, их взаимное расположение, возможность локальных растяжений 
или сжатий. Это позволяет их применять и в распознавании изображений. 
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Суть двумерных Марковских моделей заключается в том, что, в отличие от 
одномерных линейных СММ, они позволяют моделировать искажения изображе- 
ния и взаимное расположение участков не отдельно по горнзонтали или верти- 
кали, a в обоих направлениях одновременно. Для уменьшения вычислительной 
сложности поименяются псевдодвумерные CMM (Pseudo-2D Hidden Markov Models, 
P2D-HMM). Такая модель состоит из несколькнх линейных вертикальных модс- 
лей пижнего уровия и одной линейной горизонтальной модели верхнего уровня, 
на вход которой поступают выходы моделей нижнего уровня, рис. 7.6.7. Каждое 


Рис. 7.6.7. Псевлодвумериая скрытая Марковская Рис.7.6.8. Извлечение участков-образцов 
модель наблюдения 


состояние модели верхнего уровня включает в себя последовательность состояний со- 
ответствующей модели нижнего уровня. Модели нижнего уровня не связаны между 
собой. Изначально в модели верхнего уровня были вертикальными. В последующих 
работах модели верхнего уровня были сделаны горизонтальными (как это и изобра- 
жено на рисупке), для того чтобы вертикальные модели нижнего уровня могли учесть 
тот факт, что глаза могут находиться на разной высоте. Таким образом, псевдодву- 
мерная модель позволяет учесть локальные деформации и взаимное расположение 
участков изображений. Но в отличие от оптических потоков н других методов сопо- 
ставления деформациями, псевдодвумерная модель учитывает характер деформаций, 
а то, какими именно могут быть возможные деформации, псевдодвумерные СММ 
усваивают в процессе обучения. Другими словами, участок, соответствующий глазу, 
никогда не будет сопоставлен, например, участку на месте рта. 

Пример функционирования СММ. Входом СММ являются квадратные участки 
изображений (рис. 7.6.8). Было обнаружено, что участки, извлекаемые с 75% пере- 
крытием друг с другом, дают наилучшую точность распознавания. 

Для СММ важное значение имеет начальная инициализация модели. В качестве 
начальной инициализации всех моделей используются все изображения из трениро- 
вочного набора. Затем модель каждого класса настраивается на свои изображения. 
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Недостатком CMM является To, что СММ не обладает различающей способно- 
стыо, т.е. алгоритм обучения только максимизирует отклик каждой модели на свои 
классы, но не минимизирует отклик на другие классы и не выделяются ключевые 
признаки. отличающие один класс от другого. Таким образом, похожие классы могут 
оказаться слабо различимыми и при увеличении объема базы нли использования в 
более широких условиях СММ может оказаться ненадежными. 

Миогослойные нейронные сети. Архитектура многослойной нейронной сети 
(МНС) состоит из последовательно соединенных слоев, где пейрон каждого слоя 
своими входгми связан со всеми нейронами предыдущего слоя, а выходами — следу- 
ющего. НС с двумя решающими слоями может с любой точностью аппроксимировать 
любую многомерную функцию. НС с одним решающим слоем способна формировать 
линейные разделяющие поверхности. что сильно сужает круг задач, ими решаемых, 
в частностн, такая сеть не сможет решить задачу типа «исключающее или». HC c 
нелинейной функцией активации и двумя решающими слоями позволяет формировать 
любые выпуклые области в пространстве решений, а с тремя решающими слоями — 
области любой сложности, B том числе и невыпуклой. При этом МНС нет. ряет своей 
обобщающей способности. Обучаются МНС при помощи алгоритма обратного распро: 
странения ошибки, являющегося методом градиентного спуска в пространстве весов 
с целью минимизации суммарной ошибки сети. При этом ошибки (точнее, величины 
коррекции весов) распространяются в обратном направлении от входов к выходам. 
сквозь веса, соединяющие нейроны. Простейшее применение однослойной НС (назы- 
ваемой автоассоциативной памятью) заключается в обучении сети восстанавливать 
подаваемые изображения. Подавая на вход тестовое изображение и вычисляя каче: 
ство реконструированного изображения, можно оценить, насколько сеть распознала 
входное изображение, Положительные свойства этого метода заключаются в том, что 
сеть может восстанавливать искаженные и зашумленные изображения, HO для бо- 
‘лее серьезных целей он не подходит. МНС также используется для непосредственной 
‘классификации изображений — на вход подается или само изображение в каком-либо 
виде, или набор ранее извлеченных ключевых характеристик изображения, на выхо- 
де нейрон с максимальной активностью указывает принадлежность к распознанному 
классу (рис. 7.6.9). 

Нейрон с максимальной активностью (здесь первый) указывает принадлежность 
к распознанному классу. Если эта активность ниже некоторого порога, то считается, 
что поданный образ не относится ни к одному из известных классов. Процесс обу- 
чения устанавливает соответствие подаваемых на вход образов с принадлежностью к 
определенному классу. Это называется «обучением с учителем». В применении к рас- 
познаванию человека по изображению лица такой подход хорош для задач контроля 
доступа небольшой группы лиц. Он обеспечивает непосредственное сравнение сетью 
самих образов, но с увеличением числа классов время обучения и работы сети BO3- 
растает экспоненциально, и поэтому для таких задач, как поиск похожего человека в 
большой базе данных, требует извлечения компактного набора ключевых характери- 
стик, на основе которых можно производить поиск. 

В частности, МНС может использоваться для классификации изображений лиц 
на основе таких характеристик, как расстояния между некоторыми специфически- 
ми частями лица (нос, рот, глаза). Также существуют гибридные системы, например 
объединение с марковской моделью. В классической МНС межслойные нейронные 
соединения полносвязны, и изображение представлено в виде одномерного вектора, 
хотя онб двумерно. Архитектура сверточной НС направлена на преодоление этих 
недостатков. В ней используются локальные рецепторные поля (обеспечивают ло- 
кальную двумерную связность нейронов), общие веса (обеспечивают детектирование 
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некоторых черт в любом месте изображения) и иерархическая организация с простран- 
ственными подвыборками (зраНа! subsampling). Сверточная НС (СНС) обеспечивает 
частичную устойчивость к изменениям масштаба, смещениям, поворотам, искажени- 
ям. Архитектура СНС состоит из многих слоев, каждый из которых имеет несколько 
плоскостей, причем нейроны следующего слоя связаны только с небольшим числом 
нейронов предыдущего слоя из окрестности локальной области (как в зрительной ко- 
ре человека). Веса в каждой точке одной плоскости одинаковы (сверточные слоя). 
За сверточным слоем следует слой, уменьшающий его размерность путем локального 
усреднения. Затем опять сверточный слой, и так далее. Таким образом, достигается 
иерархическая организация. Более поздние слои извлекают более общие характери- 
стики, меньше зависящие от искажений изображения. Обучается СНС стандартным. 
методом обратного распространения ошибки. Сравнение MHC и СНС показало суще- 
ственные преимущества последней как по скорости, так и по надежности классифи- 
кации. Полезным свойством СНС является и то, что характеристики, формирусмые 
на выходах, верхних слоев иерархии, могут быть применимы для классификации по 
методу ближайшего соседа (например, вычисляя евклидово расстояние), причем СНС 
может успешно извлекать такие характеристики и для образов, отсутствующих в 
обучающем наборе. Для СНС характерны высокая скорость обучения и работы. Те- 
стирование СНС на базе данных ORL, содержащей изображения лиц с небольшими 
изменениями освещения, масштаба, пространственных поворотов, положения и раз- 
личными эмоциями, показало приблизительно 98% точность распознавания, причем 
для известных лиц предъявлялись варианты их изображений, отсутствующие в обуча: 
ющем наборе. Такой результат делает эту архитектуру перспективной для дальнейших 
разработок в области распознавания изображений пространственных объектов. МНС 
применяются и для обнаружения объектов определенного типа. Помимо этого, лю- 
бая обученная МНС в некоторой мере может определять принадлежность образов к 
«своим» классам, ее можно специально обучить надежному детектированию опреде- 
ленных классов. В этом случае выходными классами будут классы, принадлежащие 
и не принадлежащие к заданному типу образов. 


входной скрытые выходной 
(расширительный) (промежуточные) слои слой : 
псевдослой 


Рис. 7.6.9. Многослойная нейроиная сеть для классифнкации изображений 
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Сети Габоровых вейвлетов (GWN). Данный метод предназначен для слежения 
за лицом в реальном времени с помощью Gabor wavelet tempiate (GWT). представ- 
ляющего собой дискретную линейную комбинацию Габоровых вэйвлетов. Важно от- 
метить, что точиость представления лица регулируется числом Габоровых вэйвлетов 
в GWN, допуская представления множества лиц одним GWT. Такое представление 
допускает произвольные аффинные преобразования и быструю оценку аффиниых na- 
раметров методом градиеитного спуска. Тем самым. выполияя слежение за лицом, 
метод определяет и его ориентацию, однако с ограничением па повороты: допуска- 
ются, в основном, повороты в плоскости и незначительные простраиствениые вокруг 
вертикальной оси. 

Нейронные сети Хопфилда. НС Хопфилда (НСХ) является однослойной и полно- 
связной (связи нейронов на самих себя отсутствуют), CC выходы связаны со входами. 
В отличие от МНС, НСХ является релаксационной — т.е, будучи установленной в 
некое иачальное положение функционирует до тех пор, пока не достигнет стабильно- 
го состояния, которое и будет являться ее выходным значением. НСХ применяются в 
качестве ассоциативиой памяти и для решения оптимизационных задач. В первом cny- 

чае HCX обучается без учителя (например, по правилу Хебба), во втором случае веса 
` между нейронами изначально кодируют решаемую задачу. HCX бывают синхроиными. 
когда одновременно пересчитываются все нейроны, и асинхронными, когда пересчиты- 
вается случайно выбраиный нейрон, Для исследования динамики функционирования 
HCX используются методы Ляпунова. Асиихронная HCX всегда сходится к устой- 
чивым точкам, а аттракторами сиихронной HCX являются устойчивые стационарные 
точки и предельные циклы длины два, Таким образом, HCX из начального состояния 
сходится к ближайшему локальному минимуму эиергии сети, состояние нейронов B 
котором и будет восстаиовлениым образом для задач распознавания, и решением — 
для оптимизационных задач. Для поиска глобального минимума применительно к 
оптимизациоиным задачам используют стохастические модификации HCX. 

Применение НСХ в качестве ассоциативиой памяти позволяет точно восстанавли- 
вать образы, которым сеть обучена, при подаче на вход искажеиного образа. При этом 
сеть «вспомнит» наиболее близкий (в смысле локального минимума энергии) образ. 
и распознает ero. Такое функционирование также можио представить как последо- 
вательное применение автоассоциативной памяти. В отличие от автоассоциативной 
памяти, НСХ идеально точно восстановит образ. 

Хотя разработка систем идентификации по изображениям человеческих лиц ве- 
дется уже несколько десятилетий, задача создания эффективиого алгоритма идеити- 
фикации по изображениям человеческих лиц еще далека от завершения. 

Для большинства современных систем автоматического распознавания лиц осиов- 
ной задачей является задача сравнения данного изображения лица с набором изобра- 
жений лиц из базы данных. Характеристики систем автоматического распознавания 
лиц В этом случае оцениваются путем определения вероятностей ошибочиого отка- 
за в распознавании (для изображения лица, присутствующего в базе, принимается 
решение как о неопознаниом лице) и ошибочиого распознавания. В дополиеиие к Be- 
роятностям ошибок для оценки системы автоматического распознавания лиц часто 
используется оценка устойчивости к возмущению изображений, вызываемая комби- 
нацией со сложными фонами, изменчивостью освещения, изменению прически, и Т, Д. 
' Выбор алгоритма илн группы алгоритмов идентификации лиц для создания прак- 
тическнх систем автоматического распознавания лиц должен основываться Hà системе 
оценок рабочих характеристик конкретной системы, соответствующей ограничениям. 
связаниым с условиями эксплуатации данной конкретной системы, и определяется 
непосредственно на этапе проектирования. 


7.6 БИОМЕТРИЯ 617 


7.6.3. *Дактилоскопия. 
Краткий исторический обзор. Исследования в области биометрии начались 60- 


лее ста лет назад с разработки методов сравнения отпечатков пальцев. В 1891 г, ан- 
гличанин Френсис Гальтон предложил систему классификации папиллярных узоров. 
Статья с его выводами была опубликована в журнале «Природа», но не обратила па 
себя должного внимания. В 1892г, вышла его книга «Отображение пальцев», B KO- 
торой впервые рассматривалась возможиость идентификации человека по оттискам 
пальцев. В кииге были сделаны три осиовополагающих вывода: узор папиллярных 
линий остается иеизмеиным на протяжении всей жизии человека, узор неповторим и 
индивидуален, узор поддается классификации [90]-[92], [389], [390]. 

Позднее более совершенную систему классификации отпечатков пальцев разрабо- 
тал другой англичанин — Эдуард Ричард Генри, шеф Скотланд-Ярда, В конце 1896 г. 
он нашел способ приведения в порядок огромной картотеки, в которой храпились 
отпечатки пальцев. Система классификации Генри обеспечила возможность быстрого 
поиска нужной карточки. На помощь пришли пять выделенных типов узоров; дугозой, 
шатровый, радиально-иетлевой, ульнарно-петлевой и завитковый [93], [390], [391]. 

7 Результаты исследований Генри были опубликованы в его книге «Классификация и 
использование отображений пальцев», издаиной в Индии. Работа оказалась настоль- 
ко удачиой, «то, будучи представленной комиссии ученых, получила положительную 
оценку, а полиция приобрела мощный метод доказательства. В 1902г. английский суд 
впервые признал факт совпадения отображений пальцев как доказательство [93]. В 
России дактилоскопия начала использоваться с 1906г., когда циркуляром Главиого 
тюремного управления она была введена для регистрации в тюрьмах. В 1908 г. дакти- 
лоскопия начала использоваться в поисковых отделениях больших городов [90], [94]. 

В настоящее время разработаны известные математические модели для доказа- 
тельства индивидуальности узоров отпечатков пальцев [392], [393]. Отпечатки паль- 
ues, а в настоящее время и ладоней, благодаря совершенствованию техники дактило- 
скопической экспертизы и развитию компьютерных технологий, играют все возраста- 
ющую роль в задаче идентификации человека 92], [95] - [97], [394], 

Исторически сложилось так, что изучение папиллярных узоров проводилось в рам- 
ках нескольких научных направлений [90]. 

Первое из них можно назвать естествеино-научным. Труды значительного числа 
осиовоположников этого направления были в наше время обобщены. Э. Локар дал 
общую характеристику свойств папилляриых узоров, выделив среди них те, которые 
имеют значение для идентификации (постоянство, неизменяемость и разиообразие), 
отражают закопомерности наследования, указывают на половые и возрастные раз- 
личия, свидетельствуют о паследствениых заболеваниях [90], [94]. Дальнейшие nc- 
следования были направлены на анализ отражения наследственных заболеваний в 
папиллярном узоре, па изучение связей узора с морфологией человека и закономер- 
ностей распределения узоров в различиых расах [93], [98], [99], [389]. Исследования 
в рамках естественно-паучного направления показали, что папиллярные узоры есть 
не что-то внешнее по отношению к организму, а отражают сложные функциональные 
зависимости в таком системном образовании, как организм человека. Они определи- 
ли пути специальных научных исследований с целью разработки новых экспертных 
методик для решения криминалистических задач. 

Второе направление исследований связано с совершенствованием научных основ 
дактилоскопической экспертизы [98]. Здесь выделяются работы, связанные с класси- 
фикацией папиллярных узоров и частиых признаков [91], [95], [100], [101], с ouen- 
кой идентификационной значимости частных признаков (91], [99], [395]- [397], с выра- 
боткой концепции по обосноваиию тождества [398] или непрерывной классификации 
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[97]. Изучению подверглись научные основы пороскопической экспертизы, которая 
может применяться в тех случаях, когда дактилоскопия не решает вопрос о тожде- 
стве [391], [393]. 

Это направление привело к разработке новых экспертных методик идентификации 
человека по следам пальцев рук и ладоней, идентификации родителей по папиллярным 
узорам детей, идентификации новорожденных по отпечаткам стоп. В это же время 
была разработана методика вероятностного определения пола по имеющемуся оттиску 
пальца или руки [90], [94]. 

Третье направление относится к автоматизации дактилоскопических экспертиз. 
Это установление личности неопознанных трупов; установление лиц, скрывающих 
анкетные данные, и лиц, оставивших следы и поставлениых на дактилоскопический 
учет; установление факта, одним лицом или разными лицами оставлены следы рук. 
изъятые с мест различных преступлений; аутентификация личности в пропускных 
системах и системах ограниченного доступа; таможенный контроль [390], [399]. 

Проблематика автоматической дактилоскопической илентификации активно раз- 
вивается с середины прошлого века: 

в 1960-е годы биометрическое подразделение NIST проводит первые попытки ав- 
томатизации процесса идентификации личности по отпечаткам пальцев [399]; 

в 1970-е годы разрабатываются первые автоматизированиые дактилоскопические 
системы [102], [395]; 

в 1980-е годы разрабатываются первые методы полностью автоматической иденти- 
фикации [90], (103]-|106], [400]- [402]. 

В настоящее время задача автоматической идентификации по отпечаткам пальцев 
рук решается при помощи автоматизированных дактилоскопических информационных 
систем (АДИС) [3993]. В мире насчитывается более сотни АДИС, наиболее извест- 
ными из которых являются японская система МЕС, французская система ЗАСЕМ. 
канадская система PRINTRAK, американская система COGENT, российская система 
PAPILLON [107]-111], [398], [401]. 

При исследовании реальных объектов зачастую приходится принимать во внима- 
ние разнообразные иеопределенные факторы, действующие на отпечаток пальцевого 
узора. Эти факторы могут быть связаны, например, со свойствами следообразующего 
материала. с деформацией пальца в момент следообразования, с дефектами кожи в 
виде ожогов, шрамов, складок, грязи и шелушения. 

Работа в АДИС начинается с регистрации изображений в устройстве ввода от- 
печатков пальцев или ладоней. Изображения в электронно-цифровом виде формиру- 
ются в результате сканирования дактилокарт с помощью плаишетного сканера, ввода 
пальцев и ладоней с «живого сканера» [393], [403], фотографирования цифровым фо- 
тоаипаратом следов пальцев и ладоней с фотопленки [390]. 

Рассмотрим осповные свойства отпечатков пальцев, ладоней и их следов, 

Признаки отиечатков и следов. Узоры иа коже пальцев рук образуются кожиы- 
ми гребешками, сформированными двумя рядами сосочков, имеющих разнообразную 
форму, между которыми на некотором расстоянии друг от друга расположены от- 
верстия потовых канальцев. Гребешки отделяются друг от друга бороздками. Почти 
параллельные между собой, выпуклые линии гребешков образуют на поверхности KO- 
жи узорчатые потоки — общие признаки — рисунки в виде петель, AeJIbT, завитков и 
кармапов. Две дельты и одии завиток видны на рис. 7.6.10. Сочетание общих призна- 
ков обычно задает классификацию отпечатка по типам узоров, которых может быть 
более десятка, как в системе Генри [391]. Однако наиболее популярны дуговой, шатро- 
вый, правопетлевой, левопетлевой, завитковый, сложнозавитковый и неопределенный 
типы узоров [90], [390]. 
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У человека в процессе роста организма узор из линий возникает и развивается 
вокруг некоторого центра, формируя петли, завитки, двойные петли... К положению 
этого центра на пальце разрастаются две другие системы волнистости: одна идет 
от выпуклости вокруг ногтя, а другая — от углубления между фалангами. В месте 
встречи трех систем волнистости обычно образуются дельты. Частично сформирован- 
ные общие признаки называют ложными петлями, ложными дельтами или ложными 
завитками. Следует отметить сложность критериев отличия общих признаков от их 
ложных собратьев. 

Криминалистическая дактилоскопия имеет дело с отпечатками пальцев. На отпе- 
чатках, пригодных для дактилоскопического анализа, видны образованные краской 
или потожировыми веществами чередующиеся светлые и темные линии. Эти линии, 
обычио соизмеримой величины, — след от гребней и бороздок кожи пальцев. Их назы- 
вают папиллярными линиями, или просто линиями. Светлые линии, наблюдающиеся 
между следами от гребней кожи, принято называть просветами. 

Сумму ширины темной и светлой линии в некоторой окрестности отпечатка назы- 
вают периодом линий Т. На него опираются инвариантные метрические отношения 
признаков отпечатка. Величина периода Т непостоянна в различных областях одно- 
го и того же отпечатка, варьирует на отпечатках разных пальцев одного человека 
и разиых людей. Обычио его величина лежит в пределах 0,25-0,85 мм, в среднем 
Т = 0,48 мм. 

Совокупность нескольких почти параллельных папиллярных линий, не образую- 
щих общие признаки, называют потоком. Обычно поток образуется двумя и более 
линиями. Количество их определяет мощность потока. Количество линий в потоке не 
постоянно. Линии окаичиваются или начинаются, соединяются или расщепляются. 
Таким образом, в местах изменения мощности потока образуются частные признаки: 
окончания и начала линий, их соедииения и расщепления (см. рис. 7.6.10). Такое раз- 
деление признаков условно, поскольку зависит от направления движения по потоку. 
Известны работы, в которых выделяется до 13 частных признаков: окончание линии, 
расщепление лииии, фрагмент, островок, точка, примыкание, мостик, крючок, дельта, 
пересечение, утроение линии, прерывание линии, другие признаки. Фактически это 
составные признаки, которые могут быть синтезированы комбинацией расщеплений 
и окончаний. Поэтому для методов автоматического кодирования изображений суще- 
ствениы два их типа: окончание и расщепление линии, к которым ипогда добавляют 
кросс — пересечение двух линий. Окончание и расщепление могут переходить одно 
в другое (мутировать) в зависимости от характера следообразования и свойств сле- 
дообразующего материала. Другие элементы отпечатков и следов (мостики, крючки, 
глазки, фрагменты линий, межпапиллярные линии, микровключения, микроразрывы 
линий и Ap.) не влияют на мощность потока из-за их малых размеров. Количество 
частных признаков сильно варьируется на различных отпечатках, а те области отпе- 
чатка, которые их ие содержат, также важны B информативиом отиошенин. 

Продольные границы линий содержат микронеровиости размером до 0,27, которые 
не учитываются при определении периода. Линии, как правило, утолщаются в местах 
расположения отверстий потовых канальцев. Эти отверстия HA качественном отпечат- 
ке выглядят контрастно выделяющимися па линиях светлыми иятиами, отстоящими 
друг от друга на величину не менее 0,57; их диаметр не превосходит 0,37. 

Иногда на отпечатках между линиями пормальной ширины встречаются сверхтон- 
кие линии шириной до 0,37' или их короткие обрывки — межпапилляриые линии. 
Кроме того, на отпечатках хаотично присутствуют микродетали размером до 0,257, 
возникающие из-за потового покрытия и шелушения кожи или неоднородности Kpa- 
сителя и материала — носителя изображения. 
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Наконец, на линиях из-за неровностей линий в большом количестве наблюдаются 
микроразрывы. Их ширина обычно бывает не более 0,5Т. На некоторых отпечатках (в 
источниках указывается до 10%) эти микроразрывы совпадают на нескольких сосед- 
них липиях и образуют пересекающие узор тонкие светлые складки. Ширина складок 
близка к 0,5Т, а длина может достигать величины 207. 

Стандартное разрешение для ДИ отпечатков пальцев, ладоней и следов состав- 
Jer 500 точек на дюйм [390]. Если отпечаток пальца принадлежит ребенку, то ДИ 
стандартного разрешепия может утратить читабельность частных признаков и даже 
папиллярных линий. В последнее время с развитием биометрических технологий ин- 
тересным становится разрешение 1000 точек на дюйм. При таком разрешении лучше 
видны общие и частные признаки ДИ, крючки, глазки, мостики, микродетали, поры. 
микроразрывы, примыкания и т. д. 


Рис. 7.6.10. Некоторые частные и общие признаки ДИ 


Свойства отпечатков и следов. При дактилоскопировапии происходит неравно- 
мерзое изменение расстояния между признаками узора. Это вызвано эластичностью 
кожи, возрастными и профессиональными изменениями размеров пальцев. Величина 
деформации кожи при ее соприкосновении с материалом неодинакова для различных 
фрагментоз отпечатка: расстояние между признаками может изменяться до 40%, вза- 
имная ориентация признаков — до 30°, однако и то и другое зависит от загрязненно- 
сти кожи, направления линий, неровности поверхности. При крайне редких сложных 
деформациях кожи эти изменения могут возрастать. 

При пересъемке отпечатков пальцев появляется еще один вид искажения — мас- 
штабный. Такое искажение появляется при пересъемке с криволинейных поверхно- 
стей, эластичных и гибких материалов, усыхающих материалов, а также при наклоне 
и смещении оптической оси фотоаппарата. Такие нарушения масштаба посят как O6- 
щий, так и локальный характер. Компенсировать их не удается даже с помощью 
масштабной линейки. 

Инструкция по дактилоскопированию пальцев в Российской Федерации предписы- 
вает размещать отпечатки на дактилоскопических картах внутри специальных рамок. 
Однако примерно 5% отиечатков пальцев выходят за рамки, а для 2% отпечатков 
пальцев наблюдается частичное взаимное наложение на краю рамок. Что касается 
отпечатков ладоней, то они вообще могут располагаться как угодно. Кроме того, op- 
ганизация работ в разных странах имеет собственную специфику. Например, в Перу 
принято вертикальное расположение прокатанных пальцев рук вдоль противополож- 
ных краев дактилокарты. 
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При дактилоскопировании продольная ось пальца должна быть устаповлена nep- 
пендикулярно нижнему обрезу дактилоскопической карты. Однако на практике на- 
блюдаются отклонения от нормы, превышающие 30°. Иногда сами пальцы прокаты- 
вают на произвольном расстоянии друг от друга, а пальцы правой руки располагают 
на неопределенном расстоянии от пальцев левой руки. 

На границах отпечатков общая яркость изменяется плавно или скачком. Линия 
границы отпечатка преимущественно представляет собой выпуклую форму с локаль- 
ными нарушениями выпуклости размером до 3T. При повторной прокатке одного и 
того же пальца границы отпечатков не совпадают, а при повторном следообразова- 
нии — тем более. 

Известен эффект смазывания отпечатка пальца. Отпечатки получаются смазан- 
ными, если пальцы проскальзывали по воспринимающей поверхности. На различных 
участках отпечатка смазывание почти всегда различно по величине и направлению. 
При прокатке пальца оно, как правило, не превышает 0,57, а линии не заходят друг 
на друга. При следообразовании этот процесс резко усложняется. На участках следа 
наблюдаются плавные или скачкообразные изменения величины смазывания с нало- 
жением линий друг на друга. 

Неоднородности цвета и фактуры материала — носителя отпечатка — создают за- 
метный фон искажений. Фон определяется оптическими свойствами бумаги. Дактило- 
скопирование B стационариых условиях осуществляется Ha белую бумагу, коэффици- 
ент отражения света которой может меняться до 5%. При этом иногда используются 
случайно попавшиеся сорта бумаги с плохими световыми и цветовыми характеристи- 
ками, которые со временем неравномерно ухудшаются. 

В случае следообразования узоры отпечатываются в виде фрагментов случайной 
формы, на которых явио проявляется текстура материала — носителя следа, а так- 
же линейная и иелинейная деформация узора линий. Иногда происходит наложение 
следов, В этом случае олин узор просматривается через общий вид другого узора, 

Образование фона на следах происходит в два этапа. Сначала в процессе следооб- 
разования иа отпечаток узора иакладывается видимая структура следообразующего 
материала. Такое наложение, как правило, вносит сильные искажения. Дополнитель- 
ные искажения вносит операция съема следов на материал-носитель. В итоге происхо- 
дит нелинейное совмещение изображений фона и узора, усложняющее реконструкцию 
изображений. 

Широко распространениым типом искажений являются залипания и иепропечат- 
ки линий. Иногда они занимают участки до половины площади узора. Ha грани- 
цах таких участков видимые характеристики линий постепенно меняются, но иногда 
встречаются контрастные границы. По этой причине примерно 10% отпечатков и 60% 
следов не содержат информативиой структуры линий. Под информативной структу- 
рой понимается узор отпечатка или следа пальца или ладони, который однозначно 
интерпретируется экспертом-криминалистом. 

Квазипериодичность структуры линий сохраняется как на отпечатках, так и на 
следах. Она, как и ориентация потока, угадывается даже на сильно зашумленных H 
смазанных отпечатках и следах. Действительно, период линий Т устойчиво наблюда- 
ется при осмотре узора поперек линий. 

Направление линий обычио изменяется плавно, иногда скачкообразно в области 
карманов, петель, дельт, завитков или мест с разрушенной структурой линий. Наряду 
с потоком вводится кривизна как изгиб потока вокруг некоторой области отпечатка. 
По кривизис определяют линии перегиба кривизиы. При наличии деформации кри- 
визна может скачкообразно менять свое направление, а линии перегиба кривизны 
смещаться. 
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Самое важное свойство отпечатков и следов пальцев и ладоней заключается в том. 
что OHH обладают постоянством и индивидуальностью. Их постояиство обусловлено 
тем, что папиллярные линии остаются неизменными на протяжении всей жизии чело- 
века. После поверхностных травм (царапин, легких ожогов, истертостей) линии BOC- 
станавливаются в прежнем виде со всеми своими характериыми особенностями. Их 
индивидуальность основана на многообразии форм и взаимного расположения мелких 
деталей папиллярных узоров. В мире одинаковых отпечатков пальцев не обнаружено. 
даже у однояйцовых близнецов [390], [404]. Для установления тождества отпечат- 
ков пальцев и их следов в разных странах устанавливается минимально допустимое 
число частных признаков (от 8 в Болгарии до 16 в Италии). Этот минимум опре- 
деляется оценками надежиости идеитификации, которые в открытых публикациях. 
однако, сильно расходятся [100], [390], [403]. В России тождество отпечатков паль- 
цев считается доказанным, если количество частных признаков превышает число 12. 

Кодификация признаков. Общие признаки узоров состоят из дельт, петель и 
завитков, к которым добавляются карманы. Кармаи — это протяжеиная область y30- 
ра шириной до 2T', в которой сталкиваются по-разному ориентированные потоки, не 
образующие дельт, петель и завитков. Структура узора виутри петель, дельт и завит- 
ков дополнительно описывается характером расположения папиллярных линий. Так 
формируются поиятия: иаполиение и плечи петли, рукава дельты, елочка в шатровом 
узоре и т.п. Проработана методика оценки точного местоположения петель, дельт и 
завитков по папиллярным линиям. На основе общих признаков строят схемы деле- 
ния узоров на зоны и определяют гребневый счет, который совместно с комбинацией 
общих признаков определяет тип узора в соответствии с системой классификации 
Гальтона, Генри, Вуцетича, ФБР и др. 

Таким образом, ключом к правильной классификации типов узоров является уве- 
ренное детектирование дельт, петель и завитков на отпечатках и следах пальцев рук. 
В действительности, одиако, такой уверенности нет даже у эксперта, а о компьютер- 
ных технологиях и говорить не приходится. Задачу усложняют шрамы, ожоги, ложно- 
петлевые и ложио-завитковые узоры, редко встречающиеся и аномальные узоры. 

Частные призиаки определяются деталями строения папиллярных линий [405]. B 
криминалистической литературе чаще встречается та классификация деталей, B OC- 
нове которой лежит их конфигурация, имеющая несколько вложенных уровней опи- 
сания, Для деталей, увеличивающих число линий в потоке, вводят начало и разветв- 
ление линии. Для деталей, уменьшающих число линий в потоке, вводят OKOHUaHHe 
и слияние линии. Другие детали узора, которые не влияют на число линий в NOTO- 
ке, кодируются как точка, обрывок, глазок, крючок, мостик. Начало, разветвление. 
окоичание, слияние и глазок могут быть симметричными или асимметричными; точ- 
ки — автоиомными или слитными; обрывки — прямыми или изогнутыми; крючки — 
восходящими или нисходящими, правыми или левыми; мостики — восходящими или 
иисходящими. Такое трехуровневое описание частных признаков узора считается HC- 
черпывающим. 

Известио несколько кодификаторов деталей узора [391], [399], однако описание cy- 
щественно упрощается и формализуется, если ввести кривизну линий в области част- 
Horo признака и направление отслеживания линии, на которой или рядом с которой 
располагается деталь. Тогда все детали узора без исключения влияют на мощность по- 
тока, и остается определить минимальный размер области, для которой эта мощность 
измеряется. Это расширяет возможности автоматической интерпретации отпечатка. 
однако все равно эта интерпретация остается несовершенной: окончание может за- 
липиуть в слияние, крючок и глазок замазаться и т. п. Свойства симметричности и 
автономности еще более неустойчивы, 
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Отпечатки имеют некоторое сходство рисунка, которое позволяет разбить HX на 
классы [97]. Внутриклассовое разделение отпечатков основывается на взаимном уни: 
кальном расположении общих и частных признаков. Качество автоматического рас- 
познавания общих и частиых признаков ДИ определяет возможности аутентифика- 
ции. К сожалению, современиые технологии не позволяют сделать это безошибочно 
и быстро. Действительно, ДИ стандартного разрешения отпечатка обычной ладони 
занимает до 10000000 байт памяти. При таких объемах данных работа в реальном 
режиме времени вряд ли возможна. Так называемые оперативные проверки задержан: 
ного по отпечаткам пальцев занимают минуты по базе данных в миллион дактилокарт, 
а по ладони и того больше. Поэтому для ДИ предварительно выполняют классифи- 
кационный анализ (КА) и формируют систему признаков — шаблон, который затем 
сравнивают с другими шаблонами из базы данных (БД). Обычно у разработчиков 
шаблоны различаются, если они не ограничиваются стандартом. Функциональный 
отрыв на уровне архитектуры системы задачи обработки от задачи сравнения позво- 
ляет во много раз уменьшить время реакции системы, 

Рассмотрим теперь несколько примеров биометрических приложений, встречаю- 
щихся на практике. 


7.6.4. Система обиаружения и распозиавания лиц. Разработанная в ИИТ Tex- 
нология обнаружения и распознаваиия лиц по двумерным изображениям включает 
три основных модуля: 

® детектирование (обнаружение) лиц; 

® индексация (кодирование и последующий быстрый поиск лиц в базе); 

® идентификация лиц. 

Модули применяются последовательно. Выделениые на текущем кадре изобра- 
жения лиц поступают в систему индексации, которая в ответ указывает заданное 
количество «каидидатов» из хранящейся базы изображений лиц, наиболее похожих 
на текущее изображение. После этого процедура идентификации обрабатывает изоб- 
ражения лиц найденных кандидатов с целью их точного распознавания. Такой подход 
позволяет осуществлять полнофункциональную работу с «живым» видеопотоком с це- 
лью выделения и распознавания лиц по значительным объемам банков изображений 
в режиме, близком к режиму реального масштаба времени. 

На рис. 7.6.11 показаны составляющие представленной технологии обнаружения 
и распознавания лиц. Показаны: текущее видеоизображение (слева вверху), резуль- 
тат выделения лица (справа вверху); результат поиска в индексироваиной базе изоб- 
ражений лиц (второй ряд изображений — найденные «кандидаты», среди которых 
могут быть и ложные); результат окончательной идентификации лица (третий ряд 
изображений — показаны только «кандидаты», успешно прошедшие идентификацию). 

Рассмотрим теперь несколько подробнее характеристики перечисленных программ- 
ных модулей. 

Модуль обнаружения лиц. Библиотека, включающая набор функций, позволяю- 
щий решать задачи обнаружения лиц, определения их положения на цифровом изоб- 
paxeHHH, а также межкадрового прослеживаиия наблюдаемых лиц в реальном мас- 
штабе времени. Процедура обнаружения лица выделяет человеческое лицо на черно- 
белых или цветных изображениях во фронтальной или околофронтальной проекции и 
возвращает координаты объемлющих прямоугольников для всех обнаруженных лиц. 
Процедура слежения за лицами позволяет накапливать и сохранять в системе HH- 
формацию о лице человека (последовательность изображений лица с различными 
ракурсами и выражениями) до тех пор, пока лицо не выйдет из зоиы иаблюдения или 
не отвернется от камеры. 
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Даниое решение может быть использовано как удобиое и гибкое средство по со: 
зданию различных клиент-ориентированных биометрических систем. 

Важной особенностью системы является возможность записи «фильмов», вклю- 
чающих последовательиость изображений одного и того же лица, что обеспечивает 
более гибкое формирование охранных событий по «входам» и «выходам» одного ? 
того же лица. 


Рис. 7.6.11. Система обнаружения H распознавания лиц 


Модуль индексации лиц в базе. Библиотека, позволяющая индексировать набо- 
ры цнфровых изображеннй (паттернов) н затем производнть последующнй высокоско: 
ростной понск средн HHX «ианболее схожнх» нзображеннй. Даниый продукт можно 
использовать как для оргаинзацни сервнсов понска нзображеннй, так н для созда- 
HHH спецналнзнроваиных прнложеннй в области бнометрнческнх систем, охранных 
снстем, снстем обработкн мультнмеднйной ннформацни н архнвов нзображеннй. 

Характернстнкн модуля: 

• скорость нндексацнн: до 10 тыс изображений/с; 

• скорость понска: до 10 мли нзображеннй/с (Intel Pentium-IV-2GHz); 

® макснмальный объем базы: 10 млн запнсей; 

e размер одной запнси: от 100 до 600 байт. 

Модуль распознавания лиц. Снстема распознавання лнца представляет собой 
программно-алгоритмнческнй комплекс, решающий задачн вернфикацнн н идентнфн- 
кацнн пользователя Hà основе сравннтельного аналнза предъявляемого лица. Про- 
цедура вернфнкацнн предусматрнвает сравненне предъявляемого лнца с выбранным 
лнцом, хранящнмся в текущей базе данных. Процедура ндентнфнкацни предусмат- 
рнвает проверку прннадлежиостн предъявляемого лица ко всей базе ланиых JIHU HAH 
заранее оговоренной се частн. 
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Бнблнотека включает в себя набор алгорнтмов автоматнческой вернфнкацнн и 
ндептифнкацнн лнц, обеспечнвающнх биометрнческое распознавание пользователя с 
вероятиостью до 95%. Налнчие ннтерфейса иастранваемых параметров работы алго: 
рнтмов, спектр методов распознавания лнц, эффектнвные алгорнтмы предобработкн, 
возможность оптнмнзацнн решення под аппаратные требовання заказчнка н многое 
другое позволяют нспользовать даниое решение как удобное и гнбкое средство по 
создаиню клиент-орнентнрованных бнометрнческнх систем. 

В настоящее время опнсаниые технологнн реалнзованы B внде коммерческнх про. 
дуктов (программных модулей). Имеются виедрения опнсанных модулей на HeCKO/Ib: 
кнх крупных объектах в Россин. 


7.6.5. Система трехмериой реконструкции и формирования строго фроиталь- 
иого изображения лица человека. Опнсаиные в предыдущем разделе бнометрн. 
ческне технологнн являются траднцноннымн техиологнямн B том смысле, что для 
бнометрнческого распознавания лнца нспользуется ero двумерное изображенне. По. 
добные традицнонные снстемы нмеют уже упоминавшееся очевндное достоинство, 
связаиное с возможностью днстаицноиного бескоитактного скрытого наблюдеиня. On- 
пако лостнжимые на сегодняшнинй день вероятиостн распознаваиня B такнх системах 
существенно ннже, чем в бнометрнческнх снстемах, основанных, иапрнмер, на счн- 
тыванин радужной оболочки глаза нлн сравненнн отпечатков пальцев. 


Рис. 7.6.12. Висшний Bun комплекса для трехмерной съемки лиц (без кожуха) 


Олннм нз осиовных способов повышення вероятностн распознавання лнц является 
трехмерная съемка н последующая реконструкцня пронзвольных ракурсных нзобра. 
жеинй annua. 

Рассмотрим также разработанный в ИИТ программно-аппаратный комплекс для 
трехмерной реконструкцнн н получення строго фронтального нзображеиня лнца чело- 
века (puc. 7.6.12). Комплекс предназначен для «мгиовенной» трехмерной съемкн лнца. 
Высокоточная трехмерная реконструкцня лица осуществляется фотограмметрическнм 
методом Hà основе стереонзображеннй, полученных B блнжнем ИК-днапазоне прн по. 
мощн спецнального структурнрованного подсвета. Прн построеинн строго фронталь- 
ного нзображения лнца нспользуется блок автоматнческого илн полуавтоматнческого 
определеиня основных черт лнца (глаза, пос, рот), по результатам работы которого 
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осуществляется необходнмый пространствеиный разворот текстурнрованной моделн 
лнца (рис. 7.6.13). 

Основные функции системы: 

e реконструкиня трехмерной моделн лица; 

® формнрованне строго фронтального нзображення лнца на основе его околофрон- 
тального изображення. 

Состав системы: 

е четыре вндеокамеры; 

e источник структурированного ИК-подсвета; 

® компьютер; 

® фреймграбберы; 

® специалнзнрованное ПО. 

Параметры работы снстемы: 

e точность рекоиструкцни З30-модели лнца — 0,2 мм; 

® точность разворота лнца к фронтальному положению — 10°. Время обработкн — 
не более 2 с от момента съемкн до выдачи результата. 


Рис. 7.6.13. Пример трехмерной реконструкции модели лица H искусственно сгенерированного H306: 
ражения то-о же лнца 


7.6.6. Система автоматического выделения человеческого лица и слежения 
за его чертами. Данная снстема связана с телекоммуннкацнонными приложения. 
мн н решает задачу автоматнческого обнаруження лица и его характерных крупных 
элементов (глаз, рта, бровей, носа), а также слеження за этнми объектамн н нх после. 
дующей передачи по сетн н отображення в реальном масштабе временн на персональ: 
HOM компьютере raria IBM PC. В качестве устройства ввода нспользуется web-Kawepa. 
обеспечнвающая входной поток данных в формате RGB (24 bit) со скоростью не ме- 
нее 10 кадров в секунду. Размер входных нзображеннй 320 x 240 пикселов. Лицо 
пользователя расположено анфас к камере н не закрыто никакими другими предме: 
тамн (объектамн). Допускаются повороты н наклоиы лица в пределах +10°. Условня 
освещеиностн обычные офисные. Результаты выделения граинц бровёй, носа и ртг 
аппрокснмнруются сплайнамн по иесколькнм характерным точкам, Результаты обна- 
руження глаз характернзуются флагом «глаз открыт/закрыт», а также центрами K 
раднусамн сбӧтветству ющнх окружностей. 

На puc. 7.6.14 поверх нсходных нзображеннй человеческнх лнц показана вы делен: 
ная ннформацня о лице н его чертах, представленная в внде векториых графнческнх 
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элементов для передачн по сетям нлн дальнейшей внзуалнзацнн внртуальных персо- 
иажей средствамн машниной графнкн в реальном временн. 
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Рис. 7.6.14. Примеры автоматического выделения лица и черт лица 


7.6.7. Система распознавания жестов руки человека. Распозиаванне жестов 
представляет собой обшнрную область прнложеннй компьютерного зрення. Под «же- 
стамн» в шнроком смысле поннмаются любые двнження человеческого тела. В узком 
смысле 


МУ У \ 


Рис. 7.6.15. Простой пример системы распознавания жестов 


обычно подразумеваются некоторые характерные двнження рук человека, нмеющне 
в определениой предметной областн какне-лнбо определенные семантическне зиаче- 
ння. Распозиаванне жестов может использоваться для построення разлнчного рода 
человеко.машннных ннтерфейсов, управлення разлнчнымн техннческнмн средствамн 
н снстемамн внртуальной реальностн. 

В качестве простого прнмера можно рассмотреть снстему распознавання жестов 
рукн человека по нзображенням от черно-белой вндеокамеры низкого разрешення 
(рнс. 7.6.15). Снстема не требует предварнтельного обучення н устойчнво разлнчает 
до 10 разлнчных жестов, 


7.6.8. Система для биомеханических исследований на основе высокоскорост- 
ной стереосъемки движений человека. Снстемы для бномеханнческнх нсследова- 
ннй, предназначенные для регнстрацнн н аналнза характернстнк двнженнй человека, 
B определениом смысле также являются снстемамн «распознавання жестов», однако 
основной упор здесь делается на нзмернтельных аспектах снстемы — требуется с 
высокой точностью реконструнровать траекторнн двнження разлнчных частей чело- 
веческого тела. 

Рассмотрнм аппаратно-программный комплекс для бномеханнческнх нсследова- 
ннй на базе сннхроннзнрованных высокоскоростных камер VS-FAST (от 100 до 500 
кадров/с) н связанных в локальную сеть персональных компьютеров со спецналнзн- 
рованным программным обеспеченнем для накоплення, аналнза н графнческого гред- 
ставлення биомеханнческой ннформацин (рнс. 7.6.16). Комплекс предназначен для 
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проведення нсследованнй деятельностн спортсменов разлнчных вндов спорта. трс- 
бующнх регнстрацнн н аналнза быстро протекающнх процессов (проведенне борцов- 
CKHX прнемов, ударов, работа со спортивнымн снарядамн н тренажерамн н т. п.!. 

Основные функции комплекса: 

e регнстрацня н ввод вндеоряда скоростной съемкн от одной, двух нлн трех und. 
ровых камер FS-FAST; 

е калнбровка н орнеитнроваине видеокамер; 

ө автоматнческое н полуавтоматнческое выделеине н межкадровое слеженне зг 
положеннем отражающнх меток («маркеров»), закрепленных на теле спортсмена 5 
стандартных точках тела; 

® формнрование непрерывных траекторнй двнження маркеров B объектном про: 
странстве; 

e параллельное внзуальное воспронзведенне вндеоряда (последовательности инф: 
ровых нзображеннй) н векторной моделн движення маркеров: 

e расчет характернстнк двнження (коордннат, велнчниы перемещення, значеннй 
векторов скоростн H ускорення, угловых скоростн н ускорення) на основаннн двумер: 
ной (плоской) моделн двнження дли маркеров, звеньев, групп звеньев, общего центра 
масс н центра масс выделенных элементов тела спортсмена в плоскостн, параллельной 
плоскостн кадра (для одной камеры); 

ө расчет характернстнк двнження (коордниат, величнны перемещення, значений 
векторов скоростн н ускорення. угловых скоростн н ускорення) на основанни трех- 
мерной (объемной) моделн движення для маркеров, звеньев, групп звеньев, общегс 
центра Macc н центра масс выделенных элементов тела спортсмена; 

® отображенне временных н фазовых графнков изменення расчетных велнчнн; 

® сохраненне регистрнруемых последовательностей нзображеинй н данных расче- 
тов, а также дополннтельной информацнн о провеленин экспернмента (ндентифнка- 
цнонные, фнзнологнческне н др. данные о спортсмене, отдельные медицинскне NO- 
казателн, регистрнруемые в ходе экспернмента) с целью дальнейшего использования 
для проведения статистическнх н другнх нсследованнй. 


-—— — — 
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Рис. 7.6.16. Интерфейс системы для бномеханических исследований 
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7.6.9. Система слежения за положением головы и направлением взгляда pe- 
бенка. Задача слеження за направленнем взгляда человека нмеет ряд важных прак- 
тическнх приложеннй, в частностн — в областн бесконтактного управления компью- 
терамн н другнмн человеко-машннными системамн, в снстемах виртуальной реаль- 
HOCTH, где направленне взгляда определяет область простраиства, которую требуется 
сгенернровать н отобразнть средствамн визуалнзацни, в снстемах контроля направ- 
лення взглида воднтеля транспортного средства (для предотвращення засыпання за 
рулем нли выявления аномального поведения водителя) и ряде другнх областей. 

Рассмотрнм снстему слеження за положеннем головы н направленнем взгляда ре- 
бепка по вндеорегнстрацням (pre. 7.6.17). Данная снстема предназначена для прове- 
дення экспернментальных работ в областн медицнны, фнзнологнн и пснхологнн. 


Рис. 7.6.17. Примеры работы снстемы: а, б — оценка положения головы; в — онределение закрытых 
глаз: e-e — слежение за паправленисм взгляда 


Входные данные системы: 

e цнфровые вндеопоследовательности в формате AVI; 

e размер кадра не менее 640 x 480 пикселов. 

В результате обработки па каждом кадре оценнваются: 

€ положенне головы; 

® положенне глаз; 

• угол наклона головы; 

ө состоянне глаз («открыт/закрыт» для каждого глаза); 

e оцепка направления взгляда (только для открытых глаз). 

Характернстикн работы снстемы: 

€ точность определення положення «лобного» маркера — 1 пиксел; 

е точность определення положення центров глаз — 1 пнксел; 

® точность определення угла паклопа головы — 1°; 

€ всроятиость правнльного определеиня состояиня глаз — 0,95; 

® точность оценкн положення зрачка (для открытых глаз) — 1-2 пиксела; 

e время обработкн на однн фрейм 640 x 480 пнкселов — 0,25 с (ІВМ РС Репнит Ш. 
900). 
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7.6.10. Мультибиометрическая система персональной ндентификации. Раз- 
BHTHe в последние годы мультибиометрических (т. е. нспользующнх более одно: 
го биометрнческого ндентнфнкатора) технологнй связано со следующнмн основнымн 
факторамн: 

e часть людей не обладает некоторыми бнометрнческнмн характернстнкамн, при- 
годнымн для автоматнческой ндентнфикацнн: 

ө одна бнометрнческая характернстнка зачастую ue обеспечнвает требуемых ошн: 
бок ндентнфнкацнн 1-го н 2-го рода; 

€ нспользованием несколькнх бнометрнческнх характернстнк можно увелнчить 
производнтельность бнометрнческой снстемы; 

e зачастую мультнбнометрнческая ндентнфнкация экономнческн эффектнвна по 
сравненню с совершенствованнем одпомодальных биомстрнческнх технологнй 
Опнсываемая снстема была реалнзована в BHAC программного комплекса Bioiink AMIS 
в ходе совместных работ Инстнтута проблем ннформатнкн РАН н ООО «Бнолннк 
Солюшенс» в 2005-2008 rr. Biolink AMIS представляет собой четыре тнпа взанмодей- 
ствующнх CepBHCOB: клнентская часть, сервнсы сообщеннй, вычнелнтельные сервнсы 
и биометрическне бнблнотекн. Схематнчно взанмодействие представленных компо- 
нентов н общеснстемного ПО нзображено на рнс. 7.6.18. 


Распределенная 
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Рис.7.6.18. Взаимодействие сераисов Blolink AMIS 


Прн поступленнн запроса в программный комплекс с ннм выполняется следующая 
последовательность действнй: 

®Клнентское ПО формнрует запрос, в который включены: 

— THN транзакцнн (обращенне к БД, запрос ua ндентифнкацию бнометрнческнх 
образцов): 
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— пакет данных (фнльтр поиска, пакет бнометрнческнх данных, аналогнчный 
XML-nakery ITL-2), биометрическне данные могут быть B внде нсходных образцов 
нлн в внде шаблонов, еслн установленное клнентское ПО укомплектовано бнометрн- 
ческнмн бнблнотекамн; 

— контекст пользователя. 

®Копня запроса клнентского ПО поступает в локальный кэш для обеспечення 
отказоустойчнвостн в случае разрыва соединення нли ошнбкн иа стороне серверных 
компонентов; 

® Сервнс сообщеннй прнннмает запрос н нсполняет его от нменн пользователя, 
B частностн, еслн запрос предполагает доступ к БД, пронсходит имперсопалнзацня 
запроса. 

® Сервнс сообщеннй формнрует нз запроса последовательность элементарных за- 
даннй для вычнелнтельных узлов, копни помещаются в кэш, 

® Вычислительные сервнсы забнрают задання нз очереди согласно своей спецна- 
лнзации. Еслн вычислительный сервис укомплектован только дактобнометрней, то нз 
очередн будет брать задання строго по своему профнлю. 

® Вычислительные сервнсы возвращают результаты обработкн в внде ответной 
транзакцин. 

® Сервнс сообщеннй формирует ответную транзакцню н предоставляет ее клнент- 
скому ПО. 

e Клнентское ПО прннимает ответную трапизакцню. 

Снстема имеет следующне основные особенностн: 

® Имперсоналнзацня запросов н поддержка распределенной БД позволнет разгра- 
ннчнвать доступ к данным средствамн OC, 

e Трехзвенная архнтектура позволяет баланснровать нагрузку в сетях пронзволь- 
ной топологин, фактнчески каждое клнентское место может обратиться ровно к тем 
сервнсам сообщеннй, которые заданы в конфнгурацнонном файле. Аналогично у каж- 
дого вычислительного сервнса есть спнсок CepBHCOB сообщеннй, нз которых задання 
забнраются на обработку. 


Таблнца 7.6.1. Бнометрнческне характернстикн, нитегрнрованные на платформе AMIS 


Биометрическая Основиые источники данных Технология 
характеристика 


Отиечаток пальца e дапиыс обязательной дактнлоско- | BioLink AMIS 
пиНческой регистрацин; 
© следы отпечатков пальцев; 
® снстемы коитроля доступа; 
® бнометрнческне паспорта нового 
поколення. 
e фотографнн; BioLink/Neurolechnologlja 


€ зндсозаписн; VeriLook SDK 
| Почерк | 


• камеры иаружиого иаблюдеиня; IIT Face Detection SDK 
® снстемы коитроля доступа; 

® бнометрические паспорта нового 
поколения, 


e телсфоиные лиини; Trawi SDK 


e записи разговороз. 


Техиология ИПИ РАН 
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• Возможность нсполнення функцнй биометрнческнх бнблнотек на клнентском ПО 
позволяет перераспределять нагрузку между клнептскнм н серверным компонентом. 
Фактнческн каждое клнентское ПО может функцноннровать как вычнслнтельный 
сервер, еслн полнтнка безопасностн допускает нспользованне клнентского места в 
качестве доверенного узла для доступа к БД. 

Перечнсленные особенностн позволяют делать на платформе AMIS мультнбномет- 
рнческие снстемы разлнчиой конфнгурацин. В частиостн, была реалнзована мультн- 
бнометрнческая снстема поддержкн оператнвной деятельностн на основе доступного 
на рынке спецналнзнрованного программного обеспечення одиомодальной бнометрн- 
ческой ндентнфнкацнн. Технологнн, нспользованные в данной снстеме, опнсаны B 
табл. 7.6.1. 


7.6.11. Система автоматизированного контроля качества цифровых изобра- 
жений для персональных документов. Для автоматнзацин процесса получення 
цифровых фотографий, удовлетворяющнх осповным требованням н рекомендацням 
ГОСТ ИСО/МЭК 19794-5-2006, в ГосНИИАС был разработан специалнзнрованный 
программно-аппаратиый комплекс. Комплекс обеспечнвает получеине цнфровых фо- 
тографий лнца, а также оценку в реальном временн основных характернстнк нзоб- 
раження н параметров лнца, что позволяет оператору с мнинмальнымн уснлнямн, 
не превышающнмн уснлня, необходнмые для получення обычной качественной фото- 
графнн лнца, получать цнфровые фотогргфни лнц, гарантированно удовлетзоряющне 
требованням данного ГОСТ. Кроме того, мобнльный комплекс может быть нсполь- 
зован для контроля параметров фотографнй лнц, полученных от другнх нсточннков 
нзображеннй — как B цнфровом, так H в бумажном внде, предоставляя возможность 
оценкн пригодностн фотографнй для последующей бнометрнческой обработкн. 

Пограммно-аппаратный комплекс (puc. 7.6.19) включает: персональный компью- 
тер, цнфровой фотоаппарат, нсточннк освещення, спецнальный штатнв для крепле- 
ння фотоаппаратг н нсточннка освещення, планшетный сканер, спецналнзированное 
программное обеспеченне. 

Комплекс обеспечнвает выполненне следующнх основных функций: 

• Захват (оцнфровка) н отображенне иа моннторе последовательностн нзображе- 
ннй лнца, получаемых от цнфрового фотоаппарата в реальном временн; 

• Сохраненне нзображеинй па жестком диске компьютера; 

e Загрузка H отображенне нзображеннй с жесткого днска компьютера; 

e Обнаруженне нзображеннй лиц, блнзкнх к фронтальнюму положенню; 

• Обнаруженне глаз, определеннё контура лнца, вычнсление осей снмметрнн; 

• Определение центровки нзображення лица; 

e Определенне размеров нзображекня головы; 

e Определенне углов наклона н поворота головы; 

• Обнаруженне очков па нзображеннн; 

e Оценка качества нзображення — налнчне теней, блнков, оценка цвета, яркостн 
н текстуры фона; 

e Сравненне нзмеренных н вычисленных параметров нзображення лнца с требова- 
ннямн стандартов; 

• Индикация результатов сравненни B внде пнктограмм н текстовых сообщеннй: 

— Выбор изображення, удовлетворяющего требованням стандартов (автоматическн 
илн вручную); 

— Вывод нзображення па печать в заданном формате, 

На рис. 7.6.20 показаны прнмеры срабатывання комплекса прн успешной регн- 
страцни лнца н прн выявленнн несколькнх тнповых ошнбок, 
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Рис. 7.6.19. П 


Рис. 7.6.20. Примеры работы системы: успешиая регистрация (а) и несоответствие требованиям: 
б — закрытые глаза, в — поворот головы, г — паклон головы 
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7.6.12. *Лнтература для самостоятельного изучения. В книге (Шапиро, Cmok- 
ман) [49] пример бнометрнческого прнложення прнводнтся в разделе 16.2 «Идентн- 
фнкацня лнчностн человека по радужной оболочке глаза». Поскольку эту биометрнку 
мы в нашем курсе подробно не рассматривали, рекомендуем данный раздел для са- 
мостоятельного ознакомления. 

В книге (Форсайт, Понс) [44] в главе 22 имеется несколько содержательных 
подразделов, в которых рассматриваются задачи идентификации лиц и поиска людей. 
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7.7. Медицинские приложения 


7.7.1. Область применения: анализ н обработка медицинских изображений. Кол- 
лектив лаборатории компьютерного зрения ИИТ нмеет миоголетний олыт работы в 
области создания медицинских приложений. С пачала 1990-х гг. no пастоя:цее время 
был осуществлен ряд проектов по разработке систем анализа изображеняй различного 
типа (рентгеновских, томографических, а также монокулярных н стереоскопических 
видеоизображений) в различных отраслях медицинской днагиостики. 

В 1990-1991 гг. по заказу офтальмологического центра академика С. Н. Федорова 
(МНТЦ «Микрохирургия глаза») была разработана кератометрическая система па 
основе ССО-камеры. В 1995-1998 rr. при участин главного рентгеполога ВВС РФ 
д. м. H., профессора А. IO. Васильева была проведена серия научно-исследовательских 
работ по созданию автоматизированиых комплексов медицинской диагиостикн B об- 
ласти компьютериой томографии и рентгенографии. Были разработаны следующие 
программные комплексы: 

• система компьютерного аналнза томографнческих изображений для улучшения 
диагностики воспалительных заболеваний пазух и полостн носа (синуитов); 

ө система компьютерного анализа рентгеновских и томографических изображений 
для улучшения диагностикн очагового и инфильтративного туберкулеза легких; 


7.7 МЕДИЦНИСКИЕ ПРИЛОЖЕНИЯ 637 


€ система компьютерного анализа меднцинской рентгепографической информации 
в задаче раиней диагностнки остеопороза; 

e система компьютерного анализа томографических изображений для оценки сте- 
ненн ожирения у мужчин. 

В 1995-1999 гг. велись работы по созданню системы восстановления и нзмерения 
трехмерной формы зубов человека по стереоизображениям видимого диапазона (в 
помощь врачу-дантисту). 

B 2001-2005 rr. по заказу компанин MTL Ltd. был создан ряд программных прило- 
жений, предназначенных для хранения, передачн, обработки и аналнза медицннских 
раднологических изображений различных тнпов, а также система автоматизирован- 
ной компьютерной диагностикн в областн маммологии. 

Кроме того, проводился ряд исследований в области анализа мнкроскопических 
изображений, результаты которых также могут быть использованы при разработке 
различных систем медицинского назначения (например, цнтологнческих). 


7.7.2. Системы для компьютерного анализа томографических изображений. 
Прн создании систем аналнза томографических изображений общего назначения ос- 
новной акцент делался на разработку процедур автоматической и полуавтоматической 
сегментацни изображеннй на оспове денситометрической информацин. Реализованная 
схема алгоритма сегментацни включает: 

• первичную гистограммную сегментацию методом статистнческого выделения 
мод; 

e формнроваине связных областей с заданиыми характернстиками методом слия- 
ния/разбиения. 

Специально разработанный для данного класса задач метод статистического выде- 
ления мод позволяет оценивать количество и степень выраженности мод гистограммы 
(рис. 7.7.1), опираясь на соответствующий графнк статистической производной. 


Рис. 7.7.1. Пример автоматического разделения мод на гистограмме по максимумам фуикции локаль- 
ной разделимости 


Метод слняния/разбиения связных областей использует получениую на первом 
этапе разметку пикселов нзображения в качестве стартового приближения, после 
чего происходит процесс нтератнвной релаксации с целью минимизацин заданной 
энергетической функции. Алгоритм сегментацин может быть использован как в авто- 
матическом, так и в полуавтоматическом режиме. В этом случае врач-оператор может 
иннциализировать процесс сегментации интересующих его объектов путем указания 
соответствующих «затравочных» точек. 

В общем случае после сегментации или полуавтоматического выделения объек- 
тов интереса производится морфометрическнй анализ и классификация объектов илн 
групп объектов в пространстве яркостно-геометрнческих признаков. В конкретных 
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прнложеннях реализуются также дополнительные режимы для полуавтоматического 
измерения специфических параметров объектов. 


Рис. 7.7.2. Интерфейс системы компьютерного анализа томографических изображений для днагно- 
стики синуитов 


7.7.3. Система компьютерного анализа томографических изображений для 
диагностики воспалительных заболеваний пазух и полости носа (синуитов). 
Разработана система компьютерного анализа томографических изображений в нн- 
Tepecax диагностнки воспалительных заболеваннй пазух и полости носа (сннуитов). 

Для того чтобы обеспечнть врачу-оператору возможность максимально гибкой па- 
стройкн системы анализа нзображення, был использован орнгинальный фреймовый 
ннтерфейс, позволяющий создавать или модифнцировать схему анализа средствами 
визуального программирования непосредственио в ходе сеаиса обработки каждого 
снимка. На рнс. 7.7.2 показан интерфейс системы, включающий фреймовую схему 
обработки томографического изображения пазух и полостн носа вместе с результата- 
ми анализа данного конкретного изображения. 


1.7.4. Система компьютерного анализа томографических изображений для 
оценки степеии ожирения у мужчин. Разработана снстема компьютерного аналнза 
томографических изображений для оценкн степспи ожнрения у мужчин. 

При разработке снстемы была предложена оригинальная схема сегментации n306- 
ражения, учитывающая «концентрнческое» строение томографнческого скана тела че- 
ловека в районе пупка. Этот метод позволил полиостью автоматизировать функцню 
сегментации и измерения элементов жировых отложений всех заданных тнпов. По- 
сле выделения областей. соответствующнх различным элементам жировых отложе- 
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ний (рис. 7.7.3), вычисляются количественные показатели. определяющие тип, сте- 
пень ожирения и прогноз возможностн похудения для данного пациента. 


Рис. 7.7.3. Пример томографического скана и результат ero сегментации системой оценки степенн 
ожирения 


7.7.5. Система компьютерного анализа медицинской рентгенографической 
информации для ранней диагностики остеопороза. Разработана система компью- 
терного анализа медицинской рентгенографической информации для ранней диагно- 
стики остеопороза, В системе реализован ряд сиециальных алгоритмов структурного 
анализа рентгеновских изображений, включая прослеживание трабекуляриых линий, 


Рис. 7.7.4. Интерфейс комплекса диагиостнки остеопороза 


640 ТЕХНОЛОГИИ И ПРНЛОЖЕНИЯ МАШИННОГО ЗРЕНИЯ ГЛ. 7 


выделение концевых и узловых точек, а также сбор различного рода статистической 
информации о длинах, толщинах и направлениях трабекул. В ходе разработки произ- 
веден всесторонний статистический анализ результатов исследования изображений, 
включающий процедуры кластерного аналяза в простраистве признаков, процедуры 
оценки наличия взаимных регрессионных зависимостей различных подгрупп призиа- 
ков (в том числе — по кластерам), а также оценку параметров регрессионных зави- 
симостей в аналитнческой форме. На основе сформированных врачами экспертных 
оценок определена диагностическая значимость каждого из реализованных призна- 
ков. Разработано пользовательское программное обеспечение, предназначенное для 
оснащения автоматязированного рабочего места (АРМ) (рис. 7.7.4) врача-диагноста, 
проводящего исследования по диагностике остеопороза. При разработке АРМ была 
обеспечена возможность накопления результатов обследований в клинической базе 
данных для проведения повторного статистического анализа с целью дообучения ди- 
агностической экспертной системы. 


7.1.6. Автоматизированное рабочее место врача-рентгенолога. Автоматизи- 
рованное рабочее место врача-рентгенолога представляет собой комплексное решение 
в областя ввода, обработки, анализа, передачи и хранения медицинских радиологиче- 
ских данных. 

Состав системы: 

ө один или несколько ПК типа ІВМ PC (в зависимостн от числа клиентских мест); 

® специальное медицинское оборудование для получения изображений; 

® программный модуль для управления медицинским рентгенологическим обору- 
дованием; 

e программный модуль для работы с базой данных (БД); 

e программный модуль для анализа н обработки цифровых изображений (Viewer). 

Функции модуля управления оборудованием: 

®оцифровка рентгеновских снимков при помощи планшетного сканера высокого 
разрешения; 

eBBOA изображений (B том числе в режиме «живого видео») и управление Ha- 
стройками различных специализированных нсточников медицинских радиологиче- 
ских изображений (конкретные функции модуля зависят от вида конкретного рентге- 
нологического оборудования). 

Функции модуля БД: 

e ведение нормативио-справочной информации (классификаторов, справочников); 

е ввод данных о пациенте в БД; 

e просмотр данных о пациенте из БД; 

® поиск данных о пациенте в БД; 

® формирование отчетов; 

®запнсь данных обследования пациента на СО; 

®архявирование части данных на CD и последующее их считываине; 

® ограниченне доступа и разгранячение прав пользователей. 

Функции модуля Viewer: 

ө загрузка снимков в форматах TIFF, BMP, DICOM 3.0; 

® сохранение снимков в форматах TIFF, BMP, DICOM 3.0; 

e масштабирование изображения: 

® нзменение контраста и яркости изображения; 

е вывод на экран одновременно нескольких изображений; 

® инвертнрованне изображения (негатив/позитив); 

® измерение расстояния между точками на снимке, выделение и расчет площадей; 

® разворот изображения на угол, кратный 90°, зеркальное отображение; 
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® вырезка фрагмента изображения; 

® просмотр значений интенсивности элементов изображения; 

® нанесение на изображение графических элементов с возможностью измерения 
длин, расстояний и углов между ними; 

® пометка контуров областей н другнх криволинейных объектов на изображениях 
с возможностью измерения длин контуров, плошадей выделенных областей, а также 
средней ннтенсивности изображения по выделенным областям; 

® наложение на изображение информации о пациенте; 

® добавление меток с комментариями. 

Дополнительные функции обработки и анализа изображений модуля Иешег: 

® построение профилей яркости, апертур, проекций и гистограмм изображений; 

® фильтрация изображений в пространственной и частотной областях; 

® сравнение изображений; 

e расширенный набор функций обработки и анализа изображений в версии Viewer 
Рго. 


7.7.7. Система телемедицины в области радиологических обследований. Cu- 
стема «Телемедицина» предназначена для обеспечения удаленной сетевой компьютер- 
ной диагностики заболеваний на основе анализа цифровых радиологических CHHM- 
ков органов и тканей пациента. Снстема представляет собой распределенную си- 
стему, функционирующую в сети Интернет и объединяющую в рамках едино- 
го информационного пространства подсистемы автоматизации нескольких лечебно- 
профилактических учреждений (ЛПУ), единого консультационно-диагностического 
центра (КДЦ) и центра обработки данных (ЦОД). 

Система включает следующие основные программные компоненты: 

e APM — автоматизированное рабочее место диагностического обследования па- 
циентов, которое устанавливается в ЛПУ и КДЦ и используется для ввода, анализа и 
сохранения в цифровом виде результатов медицинского рентгеновского обследования 
пациентов, формирования врачебных заключений и диагнозов по результатам обсле- 
дований, а также для решения ряда других задач по автоматизации деятельности 
врачей и лаборантов; 

e ЛПУ-клиент — модуль расширения для рабочего места АРМ, который устанав- 
ливается в ЛПУ и используется сотрудииками ЛПУ для формирования и отправки в 
ЦОД заявок на получение квалифицироваиных заключений по обследованиям паци- 
ентов, проведениых в ЛПУ; 

® КДЦ-клиеит — модуль расширения для рабочего места АРМ, который устанав- 
ливается в КДЦ и нспользуется врачамн КДЦ для работы с заявками, поступившими 
из ЛПУ в ЦОД; 

e ЦОД-клиент — автоматнзированное рабочее место админнстратора ЦОД, кото- 
рое устанавливается в ЦОД и используется для включения в единую информацион- 
ную сеть и удаленного конфигурирования подсистем автоматизации ЛПУ и КДЦ. 

Доступ к данным на серверах СУБД, установленных в ЛПУ, КДЦ и ЦОД, осу- 
ществляется в режнме удаленного доступа через защищенные каналы сетн Иитернет. 


7.7.8. Модуль управления данными медицинского обследования на основе 
технологии DICOM. В области медицины именио стандарт DICOM определяет ис- 
пользуемые форматы хранения и протоколы передачи двумерных даиных, отличающи- 
еся от стандартов и форматов работы с изображениями, принятых в другнх областях 
(см. раздел 2.5). 
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Разработанный модуль предназиачен для считывания, сохранения и сетевой пе- 
редачи данных медицинского обследования C использованием технологии DICOM. 
Модуль может встраиваться в медицинские приложения различного назначения. 

В состав модуля входят: 

e модуль работы с файлами медицинских изображений формата DICOM 3.0; 

® модуль поддержки сервисов сетевой передачи данных на основе техиологии 
DICOM. 

Функции модуля: 

® загрузка и визуализация текстовых данных медицинского обследования; 

® загрузка и визуализация 8- и 16-битиых цифровых изображений либо сернй циф- 
ровых изображений; 

e загрузка и наложение на изображенне графических и текстовых данных (overlays); 

e сохранение текстовых данных медицинского обследования; 

® сохранение одного илн серии цифровых изображений обследования; 

e сохранение графической и текстовой ииформации, наносимой пользователем на 
изображения обследования. 

Входные данные: 

€ данные меднцииского обследования; 

е внешние файлы формата DICOM 3.0, отвечающие стаидартным спецификаци- 
ям сервис-класса хранения даниых DICOM (MEDIA STORAGE STANDARD SOP 
CLASSES); 

e запросы B формате DICOM, поступающие от внешних приложений, Hà выполне- 
ние сервисов сетевой передачи даиных спецификации STORAGE SERVICE CLASS. 

Выходные данные: 

e файлы формата DICOM 3.0, формируемые по данным медицинского обследо- 
вания и отвечающие одной из стандартных спецификаций сервис-класса хранения 
данных DICOM (MEDIA STORAGE STANDARD SOP CLASSES); 

e запросы B формате DICOM, посылаемые виешним приложениям, на выполнение 
сервисов сетевой передачи данных спецификации STORAGE SERVICE CLASS; 

e запросы в формате DICOM, посылаемые внешним приложениям, на выполнение 
сервисов сетевой передачи и печати данных спецификации PRINT MANAGEMENT 
SERVICE CLASS. 

Поддерживаемые сервисы DICOM: 

e сервис ACSE (Association Control Service Element); 

e сервисы спецификации STORAGE SERVICE CLASS 
в режиме Service Class Provider (SCP); 

e сервисы спецификации STORAGE SERVICE CLASS 
в режиме Service Class User (SCU); 

e сервисы спецификации PRINT MANAGEMENT SERVICE CLASS в режиме 
Service Class User (SCU). 

Описаиный РІСОМ -модуль является составной частью программиого обеспечения 
системы ДИАРМ-МТ фирмы MTL, представляющей комплексиое решение в обла- 
сти ввода, обработки, анализа, передачи и хранения медицинских радиологических 
данных. 


7.7.9. Система автоматизироваиного анализа рентгеновских маммографи- 
ческих изображений. Разработана система компьютерного анализа изображений, 
представляющая собой комплексиое решение в области ввода, анализа, автомати- 
ческой обработки и хранения визуальных даиных маммографического обследования. 
Основиые фуикциональные возможности системы включают: оцифровку маммографи- 
ческих пленок при помощи специального медицинского сканера; загрузку цифровых 
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изображений в форматах DICOM. TIFF и ВМР; интерактивный анализ маммогра- 
фических изображений; автоматическое обнаружение патологий молочиой железы на 
маммографических изображениях; сохранение изображений, результатов обработки и 
иитерактивного анализа в базе данных обследований. В качестве исходных даииых 
рассматриваются полутоновые изображения маммограмм в формате 16 бит/пикс. 


Рис. 7.7.5. Пример выделения точечных объек- Рис.7.7.6. Пример выделения точечных объек- 
тов интереса тов нитереса 


Рис. 7.7.7. Пример выделения площадных объ- Рис. 7.7.8. Пример выделения плошадных объ- 
ектов интереса ектов иитереса 


Разработанный алгоритм автоматического обпаружения патологий включает в Ce- 
бя четыре осковных этапа: ориентирование нзображения маммограммы; обнаружение 
области молочной железы; обнаружение точечных объектов интереса; обнаружение 
площадных объектов иитереса. 

На всех этапах алгоритма используется пирамидальная структура данных, что поз- 
воляет сократить время обработки изображений. На этапах выделения объектов ин- 
тереса используются оригинальные морфологические процедуры нормализацин фона. 
На рис. 7.7.5-7.7.8 показаны результаты выделения точечных и площадных объектов 
иитереса, полученных данной системой. 
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7.7.10. *JInreparypa для самостоятельного изучения. Теме анализа медиции- 
ских изображений посвящен целый ряд специализированных книг. На русском языке. 
в частности, можно порекомендовать: 

e J366 C., Данс Д., Эванс С. Физика визуализации изображений в медицине: в 2-х 
томах / Под ред. С. Уэбба. — M.: Mup, 1991. [112] 

m Ф. Математические аспекты компьютерной томографии. — M: Мир. 
1990. [113 


7.8. Контрольные вопросы 


К разделу 7.1. 

1) Какие технологии машинного зрения востребованы в области авиационных при- 
ложений? 

2) Какова специфика задачи высокоточного наведения и навигации? Какие методы 
при этом примеияются? 

3) Какие задачи решаются при подготовке полетной информации? 

4)Как осуществляется автоматизироваиная обработка даниых аэрокосмической 
съемки? 

5) Почему является актуальной задача полуавтоматического выделения протяжен- 
ных объектов? Что такое «снейк»? Как осуществляется работа со «снейками»? 

6)В чем смысл совместной обработки и комплексирования многоспектральных 
видеоданных в современных системах технического зрения? 

7) Какие существуют уровни комплексирования данных в совремеиных системах 
технического зрения? Приведите примеры комплексирования данных на разных уров- 
HAX. 

8) Каковы состав и назначение системы улучшенного видения для самолетов граж- 
даиской авиации? 


К разделу 7.2. 

9) В чем заключается задача «оптического распознавания символов» (OCR)? Какие 
при этом возникают проблемы? 

10) Какова структура систем оптического распознавания текстов? Какие алгорит- 
мические блоки входят в их состав? 

11) Как решаются задачи сегментации и распознавания символов? 

12) Зачем и с какой целью осуществляется постобработка результатов распознава- 
НИЯ? 

13) Какие типы штриховых кодов вы знаете? 

14) Каковы основные проблемы, связанные с распознаванием штриховых кодов? 

15) Каковы основные этапы обнаружения и считывания штриховых кодов? 

16) Каковы задачи машинного зрения в приложениях, связанных с контролем под- 
линности ценных бумаг? 


К разделу 7.3. 

17) Каковы основные элементы фотограмметрической модели камеры? 

18) В чем заключается процедура калибровки камеры? Для чего используются ко- 
дированные метки? 

19) В чем заключаются процедуры ориентирования камеры? Чем взаимное ориен- 
тирование отличается от внешнего? 

20)В чем заключается фотограмметрический метод бесконтактных трехмериых 
измерений? Как при этом решается задача стереоотождествления? 
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21) Какое аппаратное и программное обеспечение необходимо для построения фо- 
тограмметрической системы бесконтактных измерений? 
22) B чем заключается задача гранулометрии? 


К раздели 7.4. 

23) Какие задачи технического зрения решаются сегодня в области систем интел- 
лектуального вождения автомобиля? 

24) Каковы сегодня задачи и возможности технического зрения в области мобиль- 
ных робототехнических систем? 

25)В чем заключается задача обнаружения объектов перед движущимся видео- 
датчиком? 

26) Как эта задача решается средствами стереозреиия? 

27) Каковы основные идеи метода дифференциального ортофото? 


К разделу 7.5. 

28) Какие задачи обработки и анализа изображений решаются сегодня в области 
цифрового видеонаблюдения? 

29) Какова модель «движения» на изображении? Какие группы методов анализа 
движения вы знаете? 

30) Чем методы, основанные на анализе оптических потоков, отличаются от блоч- 
ных методов? 

31) Как осуществляется корреляционное слежение за объектами? 

32) Какие алгоритмы обработки данных используются для оценки параметров дви- 
жения наблюдаемых объектов? 

33) В чем заключается и как решается задача выделения оставленных предметов 
на видеопоследовательностях? 

34) Какие осиовиые методы используются для обнаружения человека B естествен- 
ной обстановке? 


К разделу 7.6. 

35) Что такое «биометрия»? Каковы функции и характеристики биометрических CH- 
стем? Какие задачи персональной идентификации человека могут решаться на основе 
методов обработки и анализа изображений? 

36) Какими методами решаются задачи выделения и распознавания лиц? 

37) Что такое метод главных компонент? 

38) Как осуществляется линейный дискриминантный анализ? 

39) Как используются гибкие контурные модели лица? 

40) В чем заключается сравнение эластичных графов? 

41) Какие геометрические характеристики лица используются для персональной 
биометрической идентификации? 

42) Каковы принципы использования скрытых Марковских моделей в системах 
распознавания? 

43) Как обучаются и используются многослойные нейронные сети и сети Хопфил- 
да? 

44) Для чего применяются сети Габоровых вейвлетов? 

45) В чем состоит задача дактилоскопической идентификации? 

46) Какие признаки используются для решения задач дактилоскопической иденти- 
фикации? 

47) Какие проблемы возникают при решении задач дактилоскопнческой идентифи- 
кации? 

48) Система обнаружения и распознавания лиц 623 
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49) В чем выгоды от использования мультибиометрических систем персональной 
идентификации? 

50) В чем состоит задача биомеханических исследований движений человека? Как 
она может быть решена на основе стереосъемки? 


К разделу 7.7. 

51) Какие задачи решаются в области анализа и обработки медицинских изобра- 
жений? 

52) Какова специфика задач формирования и анализа томографических изображе- 
ний? 

53) Какова специфика задач компьютерного анализа медицинских рентгеновских 
изображений? 

54) Какова специфика задач компьютерного анализа медицинских ультразвуковых 
изображений? 

55) Какова специфика задач компьютерного анализа медицинских микроскопиче- 
ских изображений? 


ОТВЕТЫ К ЗАДАЧАМ 


К раздели 3.2: 

Задача 13. Пусть на изображении имеется одна связная область яркости 1, окру- 
женная фоном яркости 0. Площадь ее составляет 110 пикселов, а габаритные размеры 
— 12x 13 пикселов. Каковы должны быть минимальные размеры квадратного окна 
фильтрации, чтобы медианный фильтр целиком удалил эту область с изображения? 

Ответ: Минимальная площадь окна фильтрации меднаной, целиком удаляющей 
область плошадью 110 пикселов, будет (2х 110 + 1) = 221. Ближайший больший 
квадрат целого числа это 15 x 15 = 225 > 221. Значит, медианный фильтр с окном 
размера 15 x 15 гарантированно удалит все пикселы данной области с изображения. 

Задача 14. Пусть на изображении имеется одна связная область яркости 0, окру- 
женная фоном яркости 1. Область представляет собой квадрат 11 x 11 пикселов. На- 
рисуйте (схематично), как будут выглядеть результаты фильтрации этого изображе- 
ния медианным фильтром с размером окна 11 x 11 пикселов. 

Ответ: Площадь окна фильтрации 11 х 11 = 121, следовательно, для того, чтобы 
выход фильтра был равен 0, в апертуре должно наблюдаться не менее [121/2] + 1 = 
= 61 пиксела со значением 0. Ниже приведен квадрат 11 x 11 пикселов, и в каждом 
пикселе указано число единиц в апертуре 11 х 11 вокруг данного пиксела. Легко 
увидеть, что это фрагмент школьной таблицы умножения. Серым помечены пикселы, 
которые имеют менее 61 нулевого соседа, и, следовательно, будут заменены на 1. 
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Задача 15. На бинарном изображении три связные области: 


Размеры квадратов 100 х 100 пикселов, расстояние между ними — 10 пикселов. 

а) Какую последовательность фильтров «расширение» и «сжатие» следует при- 
менить к данному изображению, чтобы исчез белый перешеек между квадратами? 
Сколько циклов «расширения» и «сжатия» следует для этого провести? 

б) Какую последовательность фильтров «расширение» и «сжатие» следует приме- 
нить к данному изображению, чтобы на изображении осталась одна связная область? 
Сколько циклов «расширения» и «сжатия» следует для этого провести? 
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Ответ: а) Фильтр «сжатие» расширяет черные объекты. Перешеек в 10 пикслов 
уменьшается на 1 пиксел с обеих сторон за каждый цикл расширения. Значит. по- 
требуется 5 циклов расширения, чтобы перешеек исчез. После этого потребуется 5 
ЦИКЛОВ «расширения», чтобы вернуть фигуре прежний размер. 

6) Чтобы осталась одна белая область, нужно применить 50 циклов «расширения». 
Если размер изображения конечен, то существует еще один ответ. Чтобы осталась 01- 
на черная область, нужно провести такое количество циклов «сжатия», чтобы расши- 
ряющиеся черные объекты заполнили все изображение (точное число циклов указать 
невозможно, так как в исходных условиях не задан размер изображения). 

Задача 17. В aneprype медианного фильтра 3 x 3 наблюдаются следующие значе- 
ния пикселов: 


Каково будет выходное значение медианного фильтра и в какой пиксел оно будет 
записано? 

Ответ: Варнационный ряд имеет вид: 1, 2, 3, 4, 5, 10, 20, 30, 50. Медиана — 
это средний элемент. Получаем значение 5, которое будет записано в центральный 
пиксел. 

Задача 18. B aneprype медианного фильтра 5 x 5 наблюдаются следующие значе- 
ния пикселов: 


Каково будет выходное значение меднанного фильтра и в какой пиксел оно будет 
записано? 

Ответ: Значение 13, записано в центральный пиксел. В этой задаче нет необхо- 
димости выстраивать весь вариационный ряд. Достаточно заметить, что по одному 
разу присутствуют все значення от 1 до 13, остальные значения больше, а медиана в 
данном случае имеет ранг 13. 

К разделу 3.3. 

Задача 24. В апертуре фильтра «скользящее среднее» З x З наблюдаются следую- 

щие значения пикселов: 


Каково будет выходное значение и в какой пиксел оно будет записано? Совпадет 
ли оно с медианой и почему? 

Ответ: Значение 5, записано в центральный пиксел. Совпадает с меднаной, no- 
скольку вариационный ряд является линейно возрастающей арифметической прогрес- 
сией. 

Задача 25. B апертуре фильтра «скользящее среднее» З x З наблюдаются следую- 
щие значения пикселов: 
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Каково будет выходное значение и в какой пиксел оно будет записано? Совпадет 
ли оно с медианой, и почему? 

Ответ: Значение 10, записано в центральный пиксел. Не совпадает с медианой, 
поскольку вариационный ряд не является линейно возрастающей арифметической про- 
грессией. Можно также заметить, что по сравнению с предыдущим примером (задача 
24) в апертуре изменилось значение единственного пиксела. На медиану оно не повли- 
яло, а значение среднего изменилось в два раза. Этот пример иллюстрирует меньшую 
устойчивость линейных фильтров к импульсному шуму. 

Задача 26. В апертуре фильтра «скользящее среднее» 5 х 5 наблюдаются следую- 
щие значения пикселов: 


Каково будет выходное значение и в какой пиксел оно будет записано? 

Ответ: Значение 48, записано в центральный пиксел. Это, скорее, пример на 
внимание H устный счет. Легко заметить, что B апертуре последовательно записаны 
пары чисел, дающие в сумме 100. Последнее число без пары — 0. Таких пар 12, 
следовательно, средиее определяется формулой 


(12. 100)/(5 -5) = 12. (100/25) = 12.4 = 48. 


Задача 28. Линейный оконный фильтр с гауссовской маской применяется к изоб- 
ражению постоянной яркости. Изменится ли изображение и почему? 

Ответ: Изображение не изменится, поскольку сумма всех весов маски любого 
сглаживающего фильтра всегда равна 1. 


К раздели 4.1. 
Задача 13. Сколько связных областей имеется на данном бинарном изображении: 


а) относительно 8-связности; 6) относительно 4-связности? 

Ответ: а) 2 области (1 единичный и 1 нулевой); 

6) 7 областей (5 единичных и 2 нулевых). 

Задача 15. На каком из приведенных ниже изображений однопроходный алгоритм 
выделения связных областей даст тот же результат, что и двухпроходный? 


Ш 
«90 
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Ответ: На левом изображении не возникает коллизий при прослеживании обла- 
стей по строкам или столбцам. На среднем изображении коллизии возникают при 
прослеживании по строкам, но не возникают при прослеживании по столбцам. На 
правом изображенин коллизии возникают при прослеживании областей как по стро- 
кам, так и по столбцам. В тех случаях, когда возникают коллизии между номерами 
прослеживаемых областей, результаты однопроходного и двухпроходного алгоритмов 
будут различаться. 


К разделу 6.1. 

Задача 5: Какие из следующих утверждений относительно операций бинарной 
морфологии истнниы? 

а) Результат открытия включает результат закрытия. 

6) Результат расширения включает результат закрытия. 

в) Результат расширения включает результат сжатия. 

г) Результат закрытия включает результат сжатия. 

д) Результат открытия включает исходное изображение. 

е) Исходное изображение включает результат закрытия. 

Ответ: 

а) Результат открытия включает результат закрытия? — НЕТ 

6) Результат расширения включает результат закрытия? — ДА 

в) Результат расширения включает результат сжатия? — ДА 

г) Результат закрытия включает результат сжатия? — ДА 

д) Результат открытия включает исходное изображение? — НЕТ 

е) Исходное изображение включает результат закрытия? — НЕТ 

Задача 6. Заданы фигура Л и структурирующий элемент В (начало координат 
указано перекрестьем). Найти результаты расширения, сжатия, открытия, закрытия: 


Ответ: расширение 
D(A B) 


Ответ: сжатие 
Е(А,В) 


Ответ: открытие 
СКА, В) 
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Ответ: закрытие 


СКА, В) 


К разделу 6.2. 

Задача 22: Заданы два кусочно-постоянных изображения f и g. Найти проекцию 
f ua gu дна f. Сравнимы ли эти фигуры по форме? Чему равен морфологический 
коэффициент корреляции K( f, g)? 


2а 
E - 


а) Изображения сравнимы no форме, так как их форма совпадает, K(f,g) = 1. 
Pr, g E 


6) Изображения несравнимы по форме, так как ни одна из форм не является разбие- 
нием другой. K(f,g) = 
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в) Изображения несравнимы по форме, так как ни одна из форм не является разбне- 


нием другой. К (9, f) =0, K(f,g) #0. 


г) Изображения сравнимы по форме, так одна из форм является разбиением другой. 


1<К(9,/) «0, K(f.g) =1. 
| T. 
| 
Preg LU 


д) Изображения несравнимы no форме, так как HH одна из форм He является разбие- 
нием другой. 1 < K(g,f) «0,1 < K(f,g) <0. 

Задача 23: Заданы два кусочно-постоянных изображения f и 9. Найти форму 
ЕЛ С, которая не проще одновременно формы F и формы С. Найти форму РУС, 
которая не сложнее одновременно формы F и формы С. 
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в задачах машинного зрения 


ВИЗИЛЬТЕР Юрий Валентинович, доктор физико-математических наук, 
начальник лаборатории компьютерного машиниого зрения ФГУП 
«Государственный нлучно-исследоватсльский ниститут авиационных 
систем» (Гос НИИАС). профессор базовой кафедры МИРЭА 
«Авиационно-космические системы обработки инфюрмащии и управления», 


ЖЕЛТОВ Сергей Юрьевич, доктор технических наук, 

член-коррсспондент РАН. Генеральный директор (Гос НИИАС ). 

швсдуюший кафелрой «Системы автоматического и интеллектуального 
управления» МАИ. профессор базовой кафедры МФТИ «Инфюрмационные 
и уприалякицие системы», 


БОНДАРЕНКО Александр Викторович, доктор физико-математических 
наук, заместитель Генерального директора Гос НИИАС, профессор базовой 
кафедры МФТИ «Информационные и управляющие системы» 


OCOCKOB Миханл Владимирович, начальник сектора лаборатории 
компьютерного машинного зрения Гос НИИАС 


МОРЖИН Александр Викторович, сотрудник лаборатории 
компьютерного машинного зрения ГосНИИАС 


Кинга написана на основе курсов лскиий, прочитанных студентам и аспиран- 
гам базой кафелры «Упраплякиние и нифюрмациютиие системы» факультета 
управления и приклалиюй математики Московского фибико-техническо инети» 
гута (государственного упиисрситета) Алресовани студентам, испиранием и пре 
ноланателям технических пуюн в качестве учебного пособия по сисциальности 
«Аптомапишрованные системы обработки ниформашии n управления». Изло- 
жеиный матернал позволяет самостоятельно излучать: опюный курс «СОЮработка 
п Hcc имбраженийи, блзовый курс «Машиниое зрепис» и углубленный курс 
«Математические методы атализа изображений», посвященный зрению на осно 
ве молелей и морфологическому анализу изображений 

В кажлом раллеле кпиги сначала иллагаюугся теоретические положения, а затем 
приволится описание QUOI Bee mm kms практических запятнӣ, которые memi 
ETEA выполнят, C испольловайием специалилированного программного пакети. 

СО.ликк с инсталляниея euet ppc sand UO: программиоо пакета для обра- 
ботки и анализа икражений прилагается 


